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Das Genom des fflV-1 Intersubtyps (C/BO und seine Anwendungen 

Die vorliegende Erfindung betriffl ein Polynukleotid, umfassend eine Nukieinsauresequenz 
gemaB SEQ ID NO: 1, 2 oder 3 oder dessen Fragment oder Derivat, odcr ein Polynukleotid. das 
mit der Nukieinsauresequenz gemafl SEQ ID N0:1. 2 oder 3 hybridisiert. Die vorliegende 
Erfindung betriffi femer Polypeptide, kodiert von der Nukleotidsequenz oder Fragment oder 
Deiivat der Nukleotidsequenz gemSfl SEQ ID NO:l. 2 oder 3. Die Polynukleotide und 
Polypeptide komien als Arzneimittel. Impfstoffe oder Diagnostika, insbesondere filr die 
Behandlung, PrSvention und Diagnose von fflV-hfektionen. verwendet warden. 

In Anbetracht des AusmaBes und der globalen Verbreitung der durch das humane 
Immundefizienz Virus (HIV) verursachten Pandemie mit einer. bis zum Ende dieses 
Jahrhunderts, geschStzten Anzahl von weltweit mehr als 40 Millionen Infizierten (davon mehr 
als 90% in Entwicklungslandem) stellt die Entwicklung einer wirksamen HTV-Vakzine eine der 
grSBten Herausforderungen an die modeme industrialisierte Welt dar. Bislang wird die 
Entwicklung eines erfolgreichen HIV-Impfstofis jedoch noch immer durch die komplizierte 
Biologie des Virus sowie seine komplexe Interaktion mit dem Immunsystera des Wirtes limitiert. 
Die wenigen Impfstoff-Kandidaten. die bis zum heutigen Zeitpunkt in Entwicklungslandem in 
Phase 3-Studien ausgetestet wurden. basierten hauptsSchlich auf den extemen Gykoproteinen 
gpl20 Oder gpl60 von HIV Typ-1. Der Ausgang der Studien war jedoch eher enttauschend: Die 
Impfstoffe waren nicht nur nicht in der Lage, breit kreuz-neutralisierende AntikSrper- und T- 
Zell-Reaktionen hervorzurufen. Sie konnten nicht einmal Infektionsduichbriiche verhindem. die 
bei einigen Impflingen beobachtet worden sind. Einer der Griinde fiir dieses Versagen liegt 
sicherlich in den extensiven Sequenzvariationen zwi-schen den verwendeten Antigenen. welche 
von laboradaptierten Vinisstammen abstammten, und den genetisch divergenten Viren, welche 
in den Testregionen (z.B. Thailand) kursierten. 

Phylogenetische Analysen der weltweit zirkulierenden HIV-Stamme haben eine Hauptgruppe 
(N4) mit 10 verschiedenen Sequenz-Subtypen (A-J) (Kostrikis et al. 1995; Leitner und Albert. 
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1995; Gaywee et al 1996; World Health Organisation Network for HIV Isolation and 
Characterization, 1994), die im Hullprotein Sequenzvariationen von bis zu 24 % aufweisen, und 
auCerdem die Viren der O-Gruppe identifiziert, die sich in einigen Leserahmen urn mehr als 40 
% von den Viren der M-Gruppe unterscheiden (Loussert Ajaka et al. 1995; Myers et al 1996; 
5 Sharp et al 1995; Sharp et al 1999). Zudem entwickelt sich HIV durch die rasche Anhaufung 
von Mutationen und Intersubtyp-Rekombinationen immer weiter. Unterschied-Iiche Subtypen, 
welche innerhalb der Population einer geographischen Region kozirkulieren, stellen die 
molekulare Grundlage fur die Erzeugung und Ausbreitung von gruppenubergreifenden 
Intersubtyp-Mosaikviren dar. Obwohl die weltweit verbreiteten HIV-l-Varianten durch Serologic 
10 und Heteroduplex-DNA-Analysen intensiv untersucht wurden, beruhen die meisten 
phylogenetischen Analysen auf Sequenzen des HUllproteins, da fiir viele der prSvalenten 
Subtypen und eine Vielzahl von rekombinanten Formen keine vollse-quenzierten Genome 
vorliegen, 

15 Ftir die uberwiegende Mehrheit der weltweit neuen HIV-l-Infektionen sind Viren des Subtyps 
Non-B (also Mc/i/-B-Varianten) verantwortlich. Den Viren des Subtyps C fallt dabei im Hinblick 
auf die Gesamtzahl von hifizierten sowie der weiten Verbreitung von Neu-Infektionen, 
insbesondere in Sud-Amerika und Asien, eine herausragende Rolle zu. Auf Grund dessen hat die 
Charakterisierung von Viren des Subtyps C eine herausragende Prioritat fur diagnostische, 

20 therapeutische oder praventive Zwecke. 

Mit Ausnahme von Thailand lagen bis vor kurzem nur begrenzte Informationen uber die 
Verteilung und molekulare Charakteristik von in Asien vorkommenden HlV-l-Stammen vor. 
Nach Schatzungen der WHO breitet sich HIV am schnellsten in SUd- und Sudost-Asien aus, 

25 welche schon bald die weltweit groBte Region mit HIV-Epidemie sein wird. China unterliegt 
ahniichen sozialen und Skonomischen Strukturen und unterhalt zu diesen Regionen uiunittelbare 
ethnische und wirtschaftliche Verbindungen. In vielen Provinzen Chinas koimte seit Anfang 
1995 ein rasanter Anstieg von PnV-Infektionen beobachtet werden. Verglichen mit alien von 
1985 bis 1994 dokumentierten 1774 Fallen an HIV und AIDS, wurden im Jahr 1995 alleine 

30 schon 1421 Falle und im Jahr 1997 mehr als 4000 Faile nachgewiesen. Die WHO geht von mehr 
als 400.000 HIV-Infektionen in China bis Ende 1997 aus, mit bis dahin 6400 Todesfillen und 
einer geschatzten Anzahl von 4000 Todesfallen allein im Jahre 1997. Im kiirzlich 
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veroffentlichten nationalen HIV-Molelcularepidemiologischen Bericht wurde gefiinden, daB die 
Thai-Stamme des Prototyp-Subtyps B und des Subtyps B' in Yunnan, einer Provinz im 
SUdwesten von China, die angrenzt an das Drogendreieck von Myanmar. Laos und Thailand 
(Graf et al. 1998), durch Benutzer von Drogen und durch Sammelstellen fUr kontaminiertes Blut 

5 und Plasma bis nach Zentral- und Ost-China verbreitet wurden. In den fruhen 90er Jahren wurde 
dann in die gleiche Region eine zweite Epidemie eingeschleppt, sehr wahrscheinlich durch mit 
Stammen des Subtyps C infizierte indische IDUs (intravenous drug user), also Menschen aus 
Indien, die Drogen intravenos verwenden (Luo et al 1995; Shao et al 1999). Innerhalb weniger 
Jahre verbreiteten sich die Viren des Subtyps C durch Drogenschmuggel schnell in Slid-, Zentral- 

10 und sogar in Nordwest-China und verursachten eine weitere Verbreitung der Epidemie innerhalb 
Chinas. Einem kurzlich veroffentlichten nationalen HIV-Molekularepidemiologischen 
Untersuchungsbericht zufolge sind fast alle mit Viren des Subtyps C infizierten Personen IDUs 
und machen damit etwa 40% aller HIV-infi-zierten IDUs in China aus. Das legt nahe, daB die 
Viren des Subtyps C zu den wichtigsten Subtypen von HlV-1 zahlen, die unter IDUs in China 

15 pravalent sind (Shao et al. 1998, Shao et al. 1994). 

Dies legt nahe, daB sich die HIV-Epidemie unter den IDUs in China innerhalb weniger Jahre von 
einem einzehien vorherrschenden Subtyp (B) auf mindestens 2 vorherrschende Subtypen, B-Thai 
und C, ausgeweitet hat, was die Moglichkeit der Intersubtyp-Rekom-bination erhoht. Nach 

20 unserem bisherigen Kenntnisstand uber Variabilitat und Antigenizitat unterschiedlicher Virus- 
Stamme soUten Diagnostika, Therapeutika und Impfstoffe auf regio-nale Virus-Stamme 
angepasst sein. Die Anzahl molekularer Reagenzien fUr Viren des Mc/iNB-Subtyps sind jedoch 
noch extrem limitiert. AuBer fiir Viren des Subtyps B oder C sind bis-lang nur wenige nicht- 
rekombinante molekulare Klone und wenige Mosaikgenome verfiigbar. Was HI- 1 -Viren des 

25 Subtyps C betrifft, sind bislang nur nicht-rekombinante Vertreter und vier A/C-Rekombinanten 
publiziert, die alle aus Afrika, Siid-Amerika oder Indien stammen (Luo et al, 1995; Gao et al 
1998; Lole et al 1999). Dariiberhinaus beschranken sich die bislang gesammelten Daten uber 
Viren des Subtyps C in China auf genetische Subtypisierungen des env-Gens (Luo et al 1995; 
Yu et al 1997; Sahninen et al 1995). 

30 

Mehrere klinische Studien zur BekMmpfimg von HIV-Infektionen wurden bislang mit Vakzinen 
durchgefiihrt. Die enttauschenden Ergebnisse. die bei klinischen Studien beobachtet wurden. 
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beinhalten wiederholt berichtete Infektionsdurchbriiche bei den Impflingen. Dies wurde vor 
allem auf die umfangreichen Sequenzvariationen zwischen den verabreichten Hiillproteinen und 
dem infektiosen Input- Virus zuruckgefUhrt, was tats^chlich vorwiegend auf eine unzureichende 
Charakterisierung der in einer bestinunten geographischen Region zirkulierenden 
5 Viruspopulation zunickzufuhren ist. Dies resultierte in der Erzeugung von humoralen und - in 
geringerem AusmaC - von zellvermittelten Immunantworten gegen virale Antigene, welche nicht 
relevant waren fiir die in der Population des Testgebietes zirkulierenden Viren. Zudem konnte 
gezeigt werden, daB gering affine, spezifisch gegen das Hiiilprotein gerichtete Antikorper nicht 
nur keine neutralisisierenden Eigenschaften besitzen, sondem daniberhinaus sogar zu einer 
10 Verstarkung der Infektion mittels Komplement- oder Fc-Rezeptor beitragen. Desweiteren 
erwiesen sich die ausgewahlten Antigene und Ver-abreichungssysteme als extrem schwach fur 
die Induktion der zellvermittelten Immunantwort, 

Angesichts eines Mangels an genauer Kenntnis uber Subtyp-ubergreifende protektive 
15 Immunantworten sowie uber die komplexe Situation in Entwicklungsiandem, wo bekannter- 
maCen viele Subtypen von HIV-1 kozirkulieren, sollten Impfstoff-Praparationen Mischungen von 
reprasentativen Antigenen enthalten. Somit besteht also ein Bedarf an der Tsolierung und 
Charakterisierung von Viren des Subtyps C, insbesondere fur die Klonierung der kodierenden 
Region. 

20 

Die Aufgabe der vorliegenden Erfindung wird durch den in den PatentansprQchen definierten 
Gegenstand gelost. 

Die nachfolgenden Figuren erlautem die vorliegende Erfindung. 

25 

Figur 1 zeigt eine Darstellung der phylogenetischen Verwandtschaft der das env-Gen C2V3 
kodierenden Region des Klons 97cn54 zu den Vertretem der wichtigen Subtypen von HIV-1 (M- 
Gruppe). "cn-con-c" steht fUr die env-Konsensussequenz der HIV-l-Stanmme des Sub-typs C, 
welche in China pravalent sind. Der phylogenetische Stanunbaum wurde mittels der "neighbour 
30 Joining" -MtihodQ erstellt. Die Werte an den Knoten geben die "bootstraps" in % an, welche die 
Eingruppierung rechts unterstiitzt. Nur " bootstrap" -VJ trie, die 70% erreichen oder Qberschreiten, 
sind angegeben. Die Klammem rechts stellen die Sequenzen der wichtigsten Subtypen von 
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HIV-l,M-Gruppe, dar. 

Figur 2 zeigt eine Darstellung der RIP-Analyse (Recombinant Identification Program), Version 
1.3, des gesamten fur gagpol kodierenden Bereichs von 97cn54 (Fenstergrofle: 200, 
5 Schweilenwert fur die statistische Signifikanz: 90%, Umgang mit Liicken: STRIP). Die 
Positionen der offenen Leserahmen von gag und pol sind durch Pfeile im Diagramm oben 
dargestellt. Die RIP-Analyse basierte auf Hintergrundvergleichen unter Venvendung von 
Referenzsequenzen, die von ausgewahlten Virus-Stammen abstammten, die die wichtigsten 
Subtypen von HIV-1 darstellen. Standardvertreter sind durch verschiedene Farben markiert, wie 
10 angezeigt. Die x-Achse gibt die Nukleotid-Positionen entlang des Sequenzvergleichs an. Die y- 
Achse gibt die Ahnlichkeit von 97cn54 mit den aufgelisteten Referenz-Subtypen an. 



Figur 3 zeigt eine Darstellung der phylogenetischen Verwandtschaft verschiedener Regionen 
innerhalb der von 97cn54 abgeleiteten Leserahmen von gagpol mit Standard- Vertretem der 

15 wichtigsten Subtypen von HIV- 1 (M-Gruppe). Unter Venvendung der "neighbour joining'' - 
Methode basierend auf den folgenden Sequenzabschnitten: (A) Nukleotide 1-478, (B) 479-620, 
(C) 621-1290, (D) 1291-1830, (E) 1831-2220, (F) 2221-2520 und (G) 2521-2971 wurden 
phylogenetische Stammbaume erstellt. Die angegebenen Positionen beziehen sich auf das erste 
Nukleotid des offenen Leserahmens von gag. Graue Bereiche kennzeichnen Cluster der 

20 analysierten Sequenzen entweder mit von Subtyp C (A, C, E, G) oder von Subtyp B (B, D, F) 
abgeleiteten Referenzstammen. Die Werte an den Knoten geben die bootstrap" -WgiXc in 
Prozent an, durch die das Cluster rechts bestatigt wurde. Es werden nur bootstrap" -V^&ciQ von 
70% Oder mehr gezeigt. 

25 Figur 4 zeigt eine Darstellung der RIP-Analyse, Version 1.3, von verschiedenen Regionen von 
97cn54 (Fenstergrofle: 200, Schweilenwert fUr die statistische Signifikanz: 90%, Umgang mit 
Lucken: STRIP). Die Analyse umfaBte (A) einen Sequenzbereich von 1500 bp Lange vom 
Startkodon des vif-Gens bis zum 5*-Ende von env einschliefllich vif, vpr, dem ersten Exon von 
tat und rev, vpu und den ersten 200 bp des env-Gens und (B) ein etwa 700 bp langes Fragment, 

30 das 300 bp vom 3'-Ende von env, die das koraplette nef-Gen und Teile der 3'-LTR-Region 
umfassen, iiberlappt. Die Positionen der Startkodons vpr, tat, vpu, env, nef und das 5*-Ende der 
3 -LTR-Region sind jeweils oben in den Diagrammen durch Pfeile gekennzeichnet. Die RIP- 
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Analyse basierte auf Hintergrund-Vergleichen unter Verwendung von Sequenzen, die von 
ausgwahlten Virusstammen abgeleitet waren, die die wichtigsten Subtypen von HTV-l 
reprasentierten. Die angegebenen Standardvertreter sind durch verschiedene Farben 
gekennzeichnet. Die x-Achse gibt die Nukleotidpositionen entlang des Sequenzvergleichs an. 
Die y-Achse gibt die Ahnlichkeit von 97cn54 mit den aufgelisteten Referenz-Subtypen an. (C) 
und (D) zeigen RJP-Analysen von Sequenzen von zwei unabhangigen C-Isolaten (xj24 und 
xjl58) aus China, die das vpr- und vpu-Gen einschlieBlich des ersten Exons von tat iiberlappen. 

Figur 5 zeigt die Analyse eines phylogenetischen Stammbaums. Phylogenetische Stammbaume 
vmrden unter Verwendung der neighbour Joining'' -Mtthode erstellt basierend auf (A) einem 380 
bp langen Fragment, das 150 bp vom 3'-Ende des vpr-Gens bis zum Ende des vpu-Leserahmens 
uberlappt, (B) den ersten 290 bp der kodierenden Region von nef und (C) auf den 320 bp am 3*- 
Ende des nef-Gens. Die Werte an den Knoten geben die " bootstrap" -Werte in Prozent an, druch 
die das Cluster rechts bestatigt wurde. Es werden nur " bootstrap'' -V/erte von 70% oder mehr 
gezeigt. Die Klammem rechts stellen die wichtigsten Subtyp-Sequenzen von HTV-l, Gruppe M, 
dar. 



Figur 6 ist eine schematische Darstellung der mosaikartigen Organisation des Genoms von 
97cn54, 



Figur 7 ist eine Darstellung des Vergleichs zwischen bekannten und experimentell 
nachgev/iesenen CTL-Epitopen des Prototyps B (HIV-li^i) und den entsprechenden 
Aminosaure-Sequenzen der Polypeptide gag, pol und env des Stanunes 97cn54 vom Subtyp C. 
Die funktionellen Domanen in GAG (pi 7 Matrix, p24 Kapsid, pi 5 Nukleokapsid und Linker- 
Protein), POL (PR Protease, RT Reverse Transkriptase, IN Integrase) und ENV (gpl20 auBeres 
Glykoprotein, gp41 Transmembranprotein) sind entsprechend bezeichnet. Die Zahlen unterhalb 
der offenen Leserahmen geben die Aminosaure-Position relativ zu den aminoterminalen Enden 
der Polypeptide an. Haplotyp-Restriktionen der bekannten CTL-Epitope von HIV-Ilm sind am 
linken bzw. rechten Rand angegeben. Die griinen Balken kennzeichnen Sequenz-Identitat 
zwischen dem bekannten Epitop und der ensprechenden Sequenz vom Subtyp C, blaue Balken 
bedeuten 2 oder weniger konservative Fehlpaarungen. Rote Balken stellen vom Subtyp C 
abgeleitete Sequenz-Bereiche mit mehr als 2 konservativen Fehlpaarungen oder nicht- 
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konservative Substitutionen im Vergleich zu dem entsprechenden von LAI abgeleiteten Epitop 
dar. 

Figur 8 zeigt die voUstandige kodierende Nukleotidsequenz von 97cn54 von HIV-1, Subtyp C 
5 (SEQ ID N0:1), mit den entsprechenden Aminosauren im Einbuchstaben-Kode. Alle 3 
Leserahmen sind angegeben. Die Stemchen stellen Stopp-Kodons dar. 

Figur 9 zeigt in einer Darstellung das Ergebnis der Aktivitaten zytotoxischer T-Zellen in 
Milzzellen von BALB/c Mausen nach intramuskularer Immunisierung mit den angezeigten 

10 DNA-PIasmiden. Lymphoide Zellen, gewonnen 3 Wochen nach der Primarimmunisierung aus 
jeweils 5 Mausen pro Gruppe, wurden mit AMQMLKETI (Einbuchstabencode) Gag-Peptid 
beladenen syngenen P815 Mastozytom Zellen (bestrahlt mit 20,000 rad) kokultiviert. Kontrollen 
schlossen Milzzellen nicht-immunisierter Mause, stimuliert mit Peptid-beladenen PS 15 Zellen 
ein. Zytotoxische Effektor-Zellpopuiationen wurden nach einer 5-tagigen Kultur in vitro geemtet. 

15 Die zytotoxischen Antworten wurden gegen A20 Zellen, beladen mit dem oben aufgefuhrte 
nonameren Peptid oder gegen unbeladene A20 Zellen, in einem Standard ^*Cr Freisetzungstest 
ausgelesen. Die gezeigten Daten reprasentieren die Mittelwerte aus jeweils Dreifachansatzen. Die 
ermittelten Standardabweichungen lagen jeweils unter 15% gemessen am Mittelwert. 

20 Die Begriffe "Epitop" oder "Antigene Determinante", wie nachfolgend verwendet, bedeuten eine 
immunologisch determinante Gruppe eines Antigens, das spezifisch von einem Antikorper 
erkannt wird. Ein Epitop kann Aminosauren in raumlicher oder diskontinuierlicher 
Konformation umfassen und umfaBt mindestens 3, vorzugsweise mindestens 5, Aminosauren. 
Ein Epitop kann auch ein einzelnes Segment einer Polypeptid-Kette umfassend eine 

25 kontinuierliche Aminosaure-Sequenz umfassen. 

Der Begriff "Polynukleotid", wie nachfolgend verwendet, bezieht sich auf ein einzel- oder 
doppelstrSngiges Heteropolymer aus Nukleotid-Einheiten beliebiger Lange, wobei diese ent- 
weder Ribo- oder Desoxyribonukleotide sein konnen. Der Begriff umfaCt auch modifizierte 
30 Nukleotide. 
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Der Begriff "Derivat", wie nachfolgend verwendet, bezeichnet eine Nukleinsaure, die ebenfalls 
das Oder die Polypeptide kodiert, die von einer anderen Nukleotidsequenz kodiert werden, 
obwohl sich ihre Nukleotidsequenz von der anderen Nukleotidsequenz unterscheidet. In diesem 
Sinne bezeichnet der Ausdruck ,J)erivat" auch Aquivalente der anderen Nukleotidsequenz, die 
5 aufgrund der Degeneration des genetischen Codes vorliegen. Unter den Begriff Derivat fallen 
z.B, Nukleinsauren, die die gleichen Polypeptide wie die Nukleotidsequenz gemaB SEQ ID 
N0:1, 2 Oder 3 kodieren, aber eine andere Nukleotidsequenz aufweisen, oder es fallen femer 
Nukleinsaure-Fragmente unter den Begriff, die das gleiche Polypeptid kodieren wie 
Nukleinsaure-Fragmente der Nukleotidsequenz gemafi SEQ ID NO:l, 2 oder 3. 

10 

Der Begriff "Polypeptid", wie nachfolgend verwendet, bezieht sich auf eine Kette von min- 
destens 2 Aminosaure-Resten, die durch Peptidbindungen miteinander verbunden sind. Der 
Begriff umfaBt daher alle Aminosaure-Ketten, z.B. Oligopeptide und Proteine. Der Begriff 
bezieht sich auch auf solche Aminosaure-Ketten, bei denen eine oder mehrere Aminosaure(n) 
15 modifiziert ist{sind), z.B. durch Acetylierung, Glykosylierung oder Phosphorylierung. 

Der Begriff "kontinuierliche Sequenz" und "Fragmente", wie nachfolgend verwendet, bezieht 
sich auf einen linearen Abschnitt von Nukleotiden oder Aminosauren, der von einer Referenz- 
Sequenz stammt, z.B. von den Sequenzen der vorUegenden Erfindung, wie sie in dem 
20 Sequenzprotokoll wiedergegeben sind. 

Der Begriff "selektive Hybridisierung" bzw. "selektiv hybridisierbar", wie nachfolgend 
verwendet, bezieht sich auf Hybridisierungsbedingungen, bei denen zwei Polynukleotide unter 
stringenten Hybridisierungsbedingungen Duplex-Nukleotidmolekiile bilden. Diese Bedingungen 
25 sind im Stand der Technik bekannt und z.B. in Sambrook et al., Molecular Cloning, Cold Spring 
Harbour Laboratory (1989), ISBN 0-87969-309-6 beschrieben, Beispiele fiir stringente 
Hybridisierungsbedingungen sind: (1) Hybridisierung in 4 x SSC bei 65°C oder (2) 
Hybridisierung in 50% Formamid in 4 x SSC bei 42°C, jeweils gefolgt von mehreren 
Waschschritten in 0,1 x SSC bei 65°C (1 Stunde lang). 

30 

Der Begriff "viraler Vektor " oder "bakterieller Vektor", wie nachfolgend verwendet, bezieht sich 
auf gentechnisch veranderte Viren oder Bakterien, mit denen sich die in den SEQ ID N0:1, 2 
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Oder 3 ausgefiihrten DNA-Sequenzen, davon abgeleitete Derivate, Fragmente, Sequenzen 
kodierend fur Epitope oder Epitop-Strings in unterschiedliche Zellen, bevorzugt in 
antigenprasentierende Zellen wie beispielsweise Dendritische Zellen einbringen lassen. Ein 
bakterieller Vektor kann daniber hinaus geeignet sein, ein von SEQ ID N0:1, 2 oder 3 kodiertes 
5 Polypeptid, davon abgeleitete Epitope oder Epitop-Strings direkt zu exprimieren. 

Ein Aspekt der vorliegenden Erfindung betrifft eine Nukleotidsequenz, wie sie in SEQ ID NO: 1, 
SEQ ED NO: 2 oder SEQ ID NO: 3 beschrieben ist. Zunachst wurde eine molekulare 
Epidemiologie-Studie unter mehr als 100 IDUs aus China, die seropositiv beziiglich des Subtyps 

10 C von HIV-1 waren, durchgefiihrt, urn notwendige Informationen zu sammeln uber 
reprasentative virale Genome von im wesentlichen voller LSnge. Die Genotypisierung auf der 
Basis der konstanten Region 2 und der variablen Region 3 (C2V3) innerhalb des Gens fiir das 
virale Hiill-Glykoprotein offenbarte die hochste Homologie der am meisten pravalenten 
Virusstamme, die in ganz China zirkulieren, zu Sequenzen des Subtyps C indischen Ursprungs. 

15 Basierend auf diesen Ergebnissen wurde aus peripheren mononuklearen Blutzellen (PBMC) von 
einem ausgewahlten HlV-inflzierten EDU direkt ein Genom von im wesentlichen voller Lange 
amplifiziert und subkloniert, das die am meisten pravalente Klasse der C-Stamme, die in ganz 
China zirkulieren, darstellt. Die Sequenzanalyse identifizierte eine Mosaikstruktur, was auf 
extensive Intersubtyp-Rekombinationsvorgange zwischen den Genomen der pravalenten C- und 

20 (B')-Subtyp-Thai-Virusstamme jener geographischen Region deutet. Eine RJP-Analyse 
(Recombinand Identification Program Analysis) und phylogenetisches "bootstrapping" legten 
insgesamt 10 Bruchstellen (i) in der fiir gagpol kodierenden Region, (ii) in vpr und am 3'-Ende 
des vpu-Gens und (iii) im ofFenem Leserahmen von nef nahe. Thai (B')-Sequenzen umfassen 
daher (i) mehrere Insertionen in der kodierenden Region von gagpol (Nukleotide 478-620, 1290- 

25 1830, 2221-2520, jeweils bezogen auf das erste Nukleotid innerhalb des Startkodon des Gag- 
bzw. des GagPol-Leserahmens), (ii) 3*-vpr, das komplette vpu, die ersten Exons von tat und rev 
(etwa 1000 Nukleotide beginnend etwa an Nukleotid 138 bezogen auf das Startkodon des Vpr- 
Leserahmens) und (iii) die 5*-Halfle des nef-Gens (Nukleotide 1-300). Die ubrigen Bereiche 
innerhalb der 9078 Nukleotide umfassenden Sequenz (SEQ ID NO: 1 ; Tabelle 3) weisen hochste 

30 Homologien zu bekannten Subtyp C Isolaten auf. Bruchstellen von 97cn54, die in der 
kodierenden Region von vpr/vpu bzw. im nef-Gen lokalisiert sind, wurden bei vielen Stammen 
des Subtyps C. die von IDUs isoliert wurden, die in verschiedenen Gebieten Chinas leben, an 
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ahnlichen Positionen geflinden. Dies legt eine gemeinsame Abstammung fUr die C/B'- 
rekombinanten Stamme nahe. Bei mehr als 50% der gut definierten CTL-Epitope, die vom 
Subtyp B abstammen, innerhalb von Gag und Pol und bei 10% der bekannten Epitope in Env, 
wurde geflinden, daB die Sequenzen innerhalb dieser C/B*-chimaren Referenzstamme exakt 
5 Ubereinstimmen. Diese Ergebnisse konnen die Anstrengungen in bezug auf Impfstoffe in China 
deutlich erleichtem, indem auJJerordentlich wichtige Matritzen flir die Konzeption von 
Impfstoffen bereitgestellt und Reagentien fiir die am besten geeigneten 
immunologischen/virologischen Ausleseverfahren entwickelt werden. 

10 Die Venvendung der beschriebenen Sequenz gemaB vorliegender Erfindung, einer Sequenz von 
HTV-l, das den am meisten pravalenten C-Typ Vinisstamm innerhalb Chinas darstellt, als 
Grundlage und Ausgangsmaterial ist fur die Entwicklung von praventiv oder therapeutisch 
einsetzbaren Impfstoffen von Vorteil Die notwendigen Konsequenzen fiir die Entwicklung eines 
erfolgreichen HIV-Impfstoffkandidaten sind (i) ein detailliertes Wissen iiber die jeweiHge 

15 epidemiologische Situation und (ii) die Verfligbarkeit einer klonierten kodierenden Sequenz, die 
innerhalb einer geographischen Region oder einer bestimmten Bevolkerung den am meisten 
pravalenten Vinisstamm reprasentiert. Solche Sequenzen stellen die Grundlage dar (i) fur die 
rationale Konzeption von praventiv und therapeutisch einsetzbaren HIV-Impfstoffkandidaten, (ii) 
flir Entwicklung spezifischer Therapeutika, wie beispielsweise therapeutisch wirksamer Decoy- 

20 Oligonukleotiden und Proteine, Antisense-Konstrukte, Ribozyme und transdominant negativ 
wirksamer Mutanten (iii) flir die Entwicklung lentiviraler Vektoren flir die Gentherapie und (iv) 
die Herstellung von Reagenzien, die fiir Diagnose und Verlaufskontrolle der HIV-Infektion 
sowie die immunologische/virale Uberwachung des Impfungsprozesses eingesetzt werden 
konnen. 

25 

Dies ist insbesondere zutreffend flir Impfstoffkandidaten, die auf den HIV-Hullproteinen 
beruhen, von denen gezeigt wurde, daB sie unter alien HTV-Proteinen die groSte Variabilitat 
aufweisen. Dariiber hinaus wird ein erfolgreicher Irapfstoff sehr wahrscheinlich beide Araie des 
Immunsystems induzieren mussen: neutralisierende Antikdrper, idealerweise gerichtet gegen 
30 Konformations-Epitope im Hullprotein sowie zellvermittelte Immimantworten (CD4-positive T- 
Helfer-Zellen, CD8-positive zytolytische T-Zellen, Zytokine vom Typ Th-1, B-Chemokine). 
erzeugt gegen Epitope verschiedener viraler Proteine. Das Konformations-Epitop gemSB der 
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vorliegenden Erfindung besteht aus mindestens 3 Aminosauren, vorzugsweise aus 5 oder mehr 
Aminosauren, die bei der Antikorper-Bindung involviert sind. Konformationelle Epitope konnen 
sich auch aus mehreren Abschnitten entweder eines einzigen Proteins, oder - im Falle oligomerer 
Komplexe wie z.B. des trimeren Hullglykoprotein-Komplexes - aus mehreren Abschnitten 
5 unterschiedlicher Untereinheiten zusammensetzen. Ein lineares Epitop gemSB der vorliegenden 
Erfindung variiert normalerweise in der Lange und umfaBt mindestens 8 Aminosauren bis etwa 
15 Aminosauren oder mehr, wobei eine Lange von 9 bis 11 Aminosauren insbesondere im Falle 
MHC Klasse I restringierter CTL-Epitope bevorzugt ist, 

10 Die vorliegende Erfindung betrifft somit femer Polypeptide, kodiert von der Nukleotidsequenz 
oder Fragment oder Derivat der Nukleotidsequenz gemaU SEQ ID N0:1, 2 oder 3. Die 
vorliegende Erfindung betrifft femer Polypeptide, umfassend eine kontinuierliche Sequenz von 
mindestens 8 Aminosauren, die von der Nukleotidsequenz oder Fragmenten oder Derivaten der 
Nukleotidsequenz gem^ SEQ ID N0:1, 2 oder 3 kodiert werden. Vorzugsweise umfasst das 

15 erfindungsgemaBe Polypeptid eine antigene Determinante, die natiirlicherweise in Infizierten 
eine Immunreaktion auslost. Besonders bevorzugt sind Polypeptide, umfassend eine 
Aminosauresequenz, kodiert von der Nukleotidsequenz gemaB SEQ ID N0:2 oder 3 oder dessen 
Derivate und Fragments Insbesondere bevorzugt sind Epitope umfassend einen kontinuierlichen 
Bereich von 9 bis 11 Aminosauren, die identisch sind zwischen den durch SEQ ID NO:l 

20 kodierten Polypeptiden und einem HIV- Ilai Referenzisolat, oder die 2 oder weniger konservierte 
Aminosauresubstitutionen innerhalb der 9 bis 11 Aminsauren umfassenden Sequenz aufweisen, 
Beispiele fiir derartige Epitope sind in Beispiel 11 aufgefuhrt. Die erfmdungsgemaBen 
Polypeptide konnen z.B. als Impfstoffe und Therapeutika oder zur Diagnostik venvendet werden. 

25 Ein weiterer Aspekt der vorliegenden Erfindung betrifft ein Polynukleotid gemaB SEQ ID NO: 1 , 
2 Oder 3. Femer betrifft die vorliegende Erfindung ein Polynukleotid-Fragment der 
Nukleotidsequenz gemaB SEQ ID NO:l, 2 oder 3, oder ein Polynukleotid, das mindestens eine 
kontinuierliche Sequenz von Nukleotiden umfaBt, die zur selektiven Hybridisierung an die 
Nukleotidsequenz, wie sie in SEQ ID NO: 1. 2 oder 3 dargestellt ist, in der Lage ist. Femer 

30 betrifft die vorliegende Erfindung Derivate der erfmdungsgemaBen Polynukleotide oder 
Polynukleotid-Fragmente. Vorzugsweise umfasst das Polynukleotid oder das Polynukleotid- 
Fragment eine kontinuierliche Sequenz von mindestens 9 Nukleotiden, bevorzugterweise von 
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mindestens 15 Nukleotiden, noch bevoraugterweise von mindestens 27 Nukleotiden, oder eine 
langere Sequenz. Das Polynukleotid oder das Polynukleotid-Fragment kann auch die kodierende 
Region der einzelnen HIV-Gene umfassen, wie z.B. von gag, pol, env. Beispiele sind in SEQ ID 
NO: 2 und SEQ ID NO: 3 angegeben. Ein weiterer Aspekt der vorliegenden Erfindung betrifR 
5 ein Polynukleotid, umfassend mindestens 2 erfindungsgemaBe Polynukleotid-Fragmente, wobei 
die Sequenzen der Polynukleotid-Fragmente auch Uberlappen oder durch einen Nukleotid- 
Platzhalter voneinander getrennt sein k6nnen. Die Sequenzen der Polynukleotid-Fragmente 
kfinnen identisch oder verschieden sein. Die erfmdungsgemaflen Polynukleotide oder 
Polynukleotid-Fragmente konnen als Impfstoffe oder Therapeutika oder zur Diagnostik 
10 verwendet werden. 

Die kodierende Sequenz des Klons 97cn54 und Derivate davon, ausgefuhrt in Form der SEQ ID 
NO: 1, als Vertreter des HIV-1 vom Subtyp C kann als Grundlage fiir die folgenden 
Anwendungen verwendet werden: 

15 

Entwicklung von Subtyp-C-spezifischen HIV-l-Impfstoffen fiirprophylaktische und 
therapeutische Zwecke. Diese Subtyp-spezifischen Impfstoffe konnen weltweit in alien 
geographischen Regionen, wo das Subtyp-C- Virus flir die HIV-Epidemie eine wesentliche RoUe 
spielt, verwendet werden, also z.B. in Lateinamerika, in Afirika und in Asien. Insbesondere 

20 soilten HlV-Impfstoffe, die getestet werden soUen in und entwickelt werden sollen fiir Siidost- 
Asien und China auf der beschriebenen kodierenden Sequenz von 97cn54 beruhen, um Subtyp- 
spezifische humorale und zellvermittelte Immunantworten zu induzieren. Desweiteren konnen 
solche HIV-1 Subtyp C-spezifischen Impfstoffe als eine Komponente in einer Kocktail-Vakzine 
eingesetzt werden, die entweder alle oder eine definierte Auswahl der weltweit relevanten HIV 

25 Subtypen beriicksichtigt. 

Um gute humorale und zellvermittelte Immunantworten in den Impflingen zu induzieren, ent- 
halten die Antigene oder kodierenden Sequenzen, die dem Immunsystem zugeflihrt werden 
sollen, vorzugsweise (i) kurze kontinuierliche Abschnitte von mindestens 3 bis etwa 5 
30 Aminosauren Lange oder langere Abschnitte, abgeleitet von einem der offenen Leserahmen, wie 
sie in Tabelle 3 abgebildet sind, (ii) Bereiche von vorzugsweise 9 bis 11 Aminosauren, (iii) 
Kombinationen dieser Bereiche, die entweder getrermt oder als Polypeptid-Kette {Epitope- 
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Strings) verabreicht werden, wobei die Epitope-Strings bzw. deren Aminosauresequenzen 
entweder Uberlappen oder aber durch Aminosauren oder andere Platzhalter getrennt sein konnen, 
und besonders bevorzugterweise vollstandige Proteine oder die entsprechenden kodierenden 
Sequenzen oder deren Varianten, die auch umfangreiche Deletionen umfassen konnen. Daher 
5 betrifR eine andere Aufgabe der vorliegenden Erfindung Polypeptide, die kodiert werden von den 
Nukleotidsequenzen oder Fragmenten der Nukleotidsequenzen, wie sie in SEQ ID NO: 1, SEQ 
ID NO: 2 und SEQ ID NO: 3 dargestellt sind. Vorzugsweise umfafit das Polypeptid eine 
kontinuierliche Sequenz von mindestens 8 Aminosauren, vorzugsweise mindestens von 9 bis 1 1 
AminosSuren, besonders bevorzugterweise von mindestens 15 Aminosauren oder iSngere 
10 Sequenzen oder diskontinuierliche Epitope, die sich vorzugsweise aus wenigstens drei 
Aminosauren einer einzigen Polypeptidkette oder, im Falle oligomerer Proteinkomplexe, auch 
unterschiedlicher Polypeptidketten zusammensetzen. Impfstoff-Konstrukte auf der Basis der 
kodierenden Sequenz von 97cn54 schlieBen alle im Stand der Technik bekannten Antigenformen 
ein und greifen auf einschlagige Verabreichungssysteme zuriick. 

15 

Kurze Epitope, kodiert von Fragmenten der Nukleinsauresequenzen gemaB SEQ ID NO: 1 bis 3, 
und jeweils drei bis funf Aminosauren, vorzugsweise von 9 bis 11 oder mehr Aminosauren 
umfassend, konnen vorzugsweise synthetisch hergestellt werden. Derartige Peptide enthalten 
entweder ein B-Zellepitop, ein MHC Klasse Il-restringiertes T-Helferepitop, ein MHC Klasse I- 

20 restringiertes zytotoxisches T-Zellepitop oder Kombinationen der genannten Varianten. Dabei 
konnen einzelne Epitope uberlappen oder auch durch Platzhalter, praferentiell bestehend aus 
Glyzin und/oder Serin Resten voneinander getrennnt sein. Verzweigtkettige Peptide konnen 
entsprechend dem Stand der Technik entweder wahrend der Synthese oder unter Zuhilfenahme 
der gangigen und kommerziell erhaltlichen homo- und heterobifunktionellen chemischen 

25 Quervemetzer im Anschlufi an die Synthese und Reinigung der entsprechenden Peptide erzeugt 
werden. Altemativ konnen per se wenig immunogene Peptide durch Quervemetzung auch an 
ausgewahlte TrSgerproteine wie z.B. Ovalbumin konjugiert werden, gentechnisch in 
Tragerproteine inseriert oder an deren N- bzw. C-Terminus fiisioniert werden. Vorzugsweise sind 
derartige Tragerproteine (i) bei Expression in geeigneten Zellkultursystemen (siehe unten) oder 

30 (ii) nach geeigneter Riickfaltung des gereinigten, denatxirierten Proteins in der Lage, partikulare 
Strukturen auszubilden, bei denen B-Zellepitope vorzugsweise auf der Oberflache des 
partikularen Carriers zu liegen kommen. Zahlreiche Beispiele solcher zur Ausbildung 
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partikulSrer Stnikturen tendierender Polypeptide sind mittlenveile bekannt wie beispielsweise 
das Hepatitis B- Virus (HBV) Core Antigen (HBcAg), das HBV Oberflachenprotein (HBsAg), 
das HIV gruppenspezifische Antigen, das Polyomavirus VPl Protein, das Pappillom virus LI 
Protein oder das TyA Protein der Hefe. Aufgrund der Tatsache, dafl sich die Mehrheit der bislang 
5 beschriebenen partikelbildenden Proteine aus den Kapsid- oder Strukturproteinen 
unterschiedlichster Viren rekrutiert, spricht man hier auch von Virus-ahnlichen Partikeln (VLP, 
virus-like particles; Ubersicht: Sonderausgabe Vaccine. (1999) Volume 18. Advances in Peptide, 
Protein and Nucleic Acid Vaccine Strategies, edited by Pof. P.T.P. Kauyama) 

10 Epitop-Strings und Polypeptide, kodiert von Fragmenten der Nukleinsauresequenzen gemaB SEQ 
ID NO: 1 bis 3, mit einer LSnge groBer 30, vorzugsweise grSBer 50 Aminosauren sowie 
Polypeptide mit einer Tendenz zur Ausbildxmg partikulSrer Strukturen (VLP) konnen nach dem 
Stand der Technik in Prokaryonten produziert und gereinigt werden. Derartige Plasmide 
enthalten dementsprechend einen bakteriellen Replikationsursprung wie z.B. ColEl, in aller 

15 Regel einen Selektionsmarker wie z.B. eine Resistenz gegeniiber Kanamyzin oder Ampizillin, 
eine konstitutiv aktive oder induzierbare Transkriptions-Kontrolleinheit wie beispielsweise den 
LacZ- oder Tac Promoter, sowie die Signale zum Translationsstart und Translationsstop. Zur 
vereinfachten Expression und Affinitatsreinigung konnen auch optional abspaltbare 
Fusionsanteile und Reinigungshilfen wie beispielsweise die Glutathion-S-Transferase oder 

20 Reinigungshilfen wie z.B. 01igohistidin-/ag5 (Fanger) verwendet werden. 



Die DNA- oder RNA-Sequenzen, die (i) zur Herstellung der B^iiop-StringSy kompletter Proteine 
Oder Virus-ahnlicher Strukturen in eukaryontischen Zellkuituren wie z.B. Hefezellen, Pilzen, 
Insektenzellen oder Saugerzellen verwendet werden oder die (ii) zur direkten Verabreichung von 

25 DNA zu Immunisierungszwecken eingesetzt werden, konnen sich auf eine Verwendung der 
Kodons verlassen, wie sie vom Virus selbst verwendet wird. Altemativ kann die Verwendung 
der Kodons, wo immer technisch m5glich, angepasst werden an die am hSufigsten oder 
zweithaufigsten verwendeten Kodons in Genen, die im jeweiligen Produktionssystems hoch 
exprimiert werden. Beispiele flir die Optimierung des Kodongebrauchs in einem unter 

30 Sicherheitsaspekten optimierten Polygen, beinhaltend die Gene Gag, Pol und Nef, sowie im 
Hilllprotein-Gen sind gegeben in SEQ ID NO: 2 und SEQ ID NO: 3. Die SEQ IDs NO: 2 und 3 
sind in Beispiel 15 naher spezifiziert. 
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Die Etablierung von Zellinien zur Produktion der Epitop-Strings, Polypeptide oder Virus- 
ahnlichen Strukturen in den genannten Zellkultur-Systemen kann dem Stand der Technik 
entsprechend auf Vektoren basieren, die wiederum neben einem bakteriellen 
5 Replikationsursprung, einem positiven oder negativen Selektionsmarker vor allem die 
entsprechenden Kontollregionen zur regelkonformen Transkription und Translation des 
Fremdproteins beinhalten konnen. Die nachfolgend beschriebenen Komponenten der DNA 
Vakzinkonstrukte stehen exemplarisch auch fiir die Module, die sich auch in Vektoren zur 
Expression der Epitop-StringSy Polypeptide oder korapletten Proteine in unterschiedlichen 
1 0 Saugerzellkulturen wiederfinden. 

Bei der einfachsten Form der Immunisierung handelt es sich um die direkte Verabreichung eines 
reinen DNA-ImpfstofTes. Dieser enthalt im wesentlichen 5'-seitig vom kodierenden Bereich eine 
Transkriptions-Kontrollregion, auch Promotor/Enhancer-Region genannt, der wahlweise ein 

15 funktionelles Intron zur Steigerung der Genexpression folgen kann, (ii) eine Kozak-Sequenz 
inklusive eines Translations-Startkodons sowie am 3'-Ende des Fremdgens ein Translations- 
Terminationskodon gefolgt von einer Polyadenylienmgs-Signalsequenz. Die 
Promotor/Enhancerregion kann praferentiell eine konstitutive Expression des gewiinschten 
Genproduktes unterstiitzen und ist beispielsweise von der Transkriptions-Kontrollregion eines 

20 unmittelbar friihen (IE) Cytomegalievirus-Gens (CMV-IE) oder dem Rous-Sarcoma Virus (RSV) 
LTR {long terminal repeat) abgeleitet. Altemativ kann auch eine induzierbare Form einer 
Transkriptions-Kontrollregion wie z.B. ein Tet on/Tet q^Promotor verwendet werden, bei dem 
die Transkription beispielsweise durch die Gabe von Tetrazyklin oder entsprechender Analoga 
reguliert wird. Desv/eiteren bietet sich hier die Verwendung von Zelltyp-spezifisch reguiierten 

25 Transkriptions-Kontrollregionen an wie z.B. die stromaufwarts des Muskel-Kreatin-Kinase Gens 
(MCK Gen; muskelspezifische Expression), des CD4-Rezeptorgens oder der MHC Klasse n 
Gene (prSferentielle Expression in Antigen-prSsentierenden Zellen) gelegenen 
Promotor/Enhancerregionen. In einigen Fallen verwendet man auch chimSre Kombinationen aus 
(i) Zelltyp-spezifischen Promotoren und (ii) viralen Enhancerregionen, um die Vorteile einer 

30 gewebespezifischen Expression mit denen der starken Transkriptionsaktivitat viraler Enhancer zu 
vereinen. Die VerstSrkung der Genexpression durch das Einbinden eines in aller Regel 5'-seitig 
des offenen Leserahmens gelegenen funktionellen Introns geht auf eine gesteigerte 
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Kemexportrate gespleiflter im Vergleich zu ungespleiBten Transkripten zuriick und wird 
beispielsweise durch die Insertion eines im B-Globin Gen gelegenen Introns erreicht. 

Eine bevorzugte Form eines auf SEQ ID N0:1, 2 oder 3 basierenden DNA-ImpfstofTs enthalt 
zusatziich ein von Alpha- Viren wie beispielsweise von Semliki-Forest- oder Venezuela- 
Encephalitis-Viren (SFV, VEE) abgeleitetes Replikon. In diesem Fall folgt der oben 
beschriebenen nukleSren Transkriptions-Kontrolleinheit und dem wahlweise beriichsichtigten 
Intron zunachst der fiir die VEE oder SFV Nichtstrukturproteine (NS) kodierende Bereich. Erst 
3* seitig davon folgt das eigentliche Fremdgen, dessen zytoplasmatische Transkription seinerseits 
durch einen NS-sensitiven Promoter reguliert wird. Dementsprechend wird ausgehend von der 
nuklearen Transkriptions-Kontrolleinheit ein langes Transkript uber mehrere offene Leserahmen 
erzeugt, das anschlieflend ins Zytoplasma transloziert wird. Die dort syndietisierten NS-Proteine 
aktivieren dann durch Bindung an die entsprechende Kontrollregion die zytoplasmatische 
Transkription der Fremdgene. Dieser Amplifikationseffekt fiihrt in aller Regel zu einer 
abundanten RNA Synthese und folglich hohen Fremdprotein-Syntheseraten. Letzteres erlaubt, im 
direkten Vergleich mit konventionellen Plasmiden, die auf den beschriebenen Effekt durch 
zytoplasmatische RNA Amplifikation verzichten, in aller Regel eine deutliche Reduktion der zu 
verabreichenden Plasmidmenge bei wenigstens vergleichbarer hnmunogenitat. 

20 Die oben beschriebenen Peptide, Proteine, Virus-ahnlichen Partikel und DNA-Konstrukte 
konnen durch intramuskulare, subkutane, intradermale, intravenose Injektion verabreicht werden, 
wobei fiir die Verabreichung der proteinosen Antigene jeweils der Stand der Technik angewendet 
wird. Zur DNA-Immunisierung konnen entweder konventionelle Spritzen mit Injektionsnadeln 
verwendet werden, oder aber Geratschaflen, die ohne Nadeln auskonmien und in aller Regel die 

25 DNA uber Druckluft direkt in das gewtinschte Gewebe einbringen konnen. Dazu zahit 
insbesondere auch die intranasale und orale Applikation DNA-haltiger Vakzin- Formulierungen 
durch sprayartige Vorrichtungen. Altemativ dazu kann die DNA auch an feste Trager wie z.B. 
Goldktigelchen konjugiert und beispielsweise unter Luftdnick in die entsprechenden Gewebe 
verabreicht werden. 

30 

Zur Verstarkung oder Modulation der Immunantwort kQnnen die erwahnten proteinosen 
Antigene und DNA-Konstrukte auch mit sogenannten Adjuvantien, i.d. Regel Stimulatoren der 



10 
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Immunantwort, kombiniert oder in einer sequentiellen Abfolge rnit den Adjuvantien verabreicht 
werden. Konventionelle Adjuvantien wie z.B. Aluminiumhydoxyd oder Aluminium- 
Hydroxyphosphat resultieren in einer Stimulation der humoralen Immunantwort, die sich auch 
durch hohe Antikorpertiter vom IgGl Subtyp auszeichnet. Modemere Adjuvantien, wie 
5 beispielsweise CpG Oligonukleotide (Konsensuskermnotiv: Purin-Purin-CpG-Pyrimidin- 
Pyrimidin) oder chemisch modifizierte Derivate davon (Phosphothioat-Oligunukleotide; 
Oligonukleotide mit Peptidnickgrat) verstarken ublicherweise den zellularen Aim der 
Irrmiunantwort und unterstiitzen vomehmlich den Thl-Typ der zellvermittelten Immunitat, 
gekennzeichnet durch hohe Antikorpertiter vom Subtyp IgG2a und die Induktion von Thl 
10 Zytokinen wie z.B. y-IFN, IL-2 und IL-12. 

Die Verabreichung und Aujhahme von Peptiden, Proteinen und DNA-Vakzinkonstrukten kann 
insbesondere auch verbessert werden durch Bindung an oder Inkorporation in hShermolekulare 
Strukturen, wie z.B. biodegradierbare Partikel, multilamellare, idealerweise kationische 

15 Liposomen, immunstimulierende Komplexe (ISCOMS), Virosomen oder in vitro assemblierter 
Viruspartikel. Zu biodegradierbaren Partikeln zahlen beispielsweise PLA- (L-lactic acid), PGA- 
(polyglycolic) oder PLGA- [poly (D,L-lactide-co-glycolide)] Mikrospharen oder Derivate davon, 
kationische Mikropartikel oder von bakteriellen Kapselpolysacchariden abgeleitete 
Tragersubstanzen. Der Sammelbegriff ISCOMS steht fur immunstimulierende Komplexe, die auf 

20 wasserloslichen Extrakten der Rinde von Quillaja saponaria entstammen und mittels 
chromatographischer Verfahren weiter aufgereinigt wurden. Eine dem Stand der Technik 
entsprechende, detaillierte Ubersicht zu den unterschiedlichsten Adjuvantien und 
Verabreichungshilfen findet sich unter 

http://www.niaid.nih.gov/aidsvaccine/pdf/compendium.pdf [Vogel, F. R., Powell, M. F. and 

25 Alving, C. R. ,A Compendium of Vaccine Adjuvants and Excipients (2nd Edition)]. 

Desweiteren k5nnen zur gunstigen Prasentation von Epitop-Smng5, Polypeptiden und Virus- 
ahnlichen Partikeln virale und, altemativ, bakterielle Vektoren eingesetzt werden. 

30 Nach dem aktuellen Stand der Technik eignen sich beispielsweise gentechnisch veranderte 
Sahnonellen und Listerien aufgrund ihres naturlichen Zelltropismus in besonderer Weise dazu, 
DNA-Vakzinkonstrukte in Antigen-prSsentierende Zellen wie Monozyten, Makrophagen und 
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vor allem in dendritische Zellen einzubringen. Die gentechnischen Verandemngen konnen neben 
einem Gewinn an Zelltypspezifitat unter anderem dazu beitragen, daB die DNA unbeschadet das 
Zytoplasma der Antigen-prasentierenden Zelle erreicht. In diesem Fall gelangt ein DNA- 
Vakzinkonstnikt in den Zellkem, wo iiber einen eukaryontischen, vorzugsweise viralen oder 
5 zelitypspezifischen Promotor der entsprechende Leserahmen unter Nutzung der zellularen 
Resourcen und Proteine transkribiert wird. Nach dem Transport der RNA ins Zytoplasma wird 
das entsprechende Genprodukt translatiert und, je nach Beschaffenheit, posttranslational 
modifiziert und dem entsprechenden zellularen Kompartiment zugewiesen. 

10 Bakterielle Vektoren (Salmonellen, Listerien, Yersinien etc.) konnen auch zur Induktion einer 
Schleimhautimmunitat, vorzugsweise nach oraler Verabreichungverwendet werden Dabei 
werden die entsprechenden Antigene durch die bakterielle Transkriptions- und 
Translationsmaschinerie hergestellt und unterliegen demnach nicht den in Saugerzellen sonst 
ablichen posttranslationalen Modifikationen (keine entsprechende Glykosylierung; kein 

1 5 sekretorischer Pathway). 

Daneben existieren mittlerweile eine Vielzahl von attenuierten viralen Vektoren, mit deren Hilfe 
sich die gewunschten Antigene erfolgreich und in hohen Ausbeuten exprimieren lassen. Neben 
deren Tauglichkeit zur reinen Antigen-Produktion konnen solche virale Vektoren auch direkt zur 

20 Immunisierung eingesetzt werden. Diese kann zunachst entweder ex vivo erfolgen, beispielsweise 
zur Infektion von Antigen-prasentierenden Zellen, die anschlieBen dem Impfling verabreicht 
werden, oder direkt in vivo durch die subkutane, intradermale, intracutane, intramuskulare oder 
intranasal Immunisierung mit dem rekombinanten Virus, die eine giinstige Antigen-Prasentation 
mit entsprechendem Immunisierxmgserfolg erzielen laBt. So konnen beispielsweise durch 

25 Immunisierung mit rekombinanten Vakzinia Viren wie z,B. dem durch Passagieren uber 
Hiihnerzellen attenuierten Modifizierten Vaccinia Virus Ancara (MVA), dem gentechnisch 
attenuierten Vaccinia Stamm New York (NYVAC) oder die in VOgeln endemischen aviaren 
Vaccinia Viren (Fowipox, Canarypox) adaquate humorale und zellvermittelte Immunantworten 
in den geimpften Personen induziert werden. Altemativ eignen sich dazu in gleicher Weise auch 

30 eine Reihe anderer Viren wie z.B. rekombinante Alpha- Viren, darunter das Semliki-Forest Virus 
Oder das Venezuela-Enzephalitis Virus, rekombinante Adenoviren, rekombinante Herpes 
Simplex Viren, Influenzaviren und andere. 
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Letztlich kOnnen auf Basis der SEQ ED NO: I, 2. oder 3 auch attenuierte HTV-Viren generiert iind 
zu Imraunisierungszwecken eingesetzt werden, sofem mitteis Klonierverfahren nach dem Stand 
der Technik die Regulationssequenzen (LTR, long terminal repeat), die den kodierenden Bereich 
flankieren, erganzt werden. Eine hinreichende Attenuierung des Virus kann dann entsprechend 
5 dem Stand der Technik durch eine oder mehrere Deletionen beispielsweise im Nef-Gen 
erzieltwerden 



Die in den Beispielen SEQ ID NO: I und SEQ ID NO: 3 ausgeflihrten NukleinsSuresequenzen 
sowie daraus abgeleitete Peptide, Proteine oder Virus-ahnlichen Partikel kSnnen auch als 
10 Komponenten viraler Vektoren zur Geniiberfuhning eingesetzt werden. 

Die durch das GagPol-Gen (SEQ ID N0:1; Nukleotid 177-4458; Tabelle 3) kodierten 
Polypeptide konnen beispielsweise die Verpackungs- und Rezeptorflinktionen von z.B. lenti- 
oder retroviralen Vektoren bereitstellen. So konnen z.B. nach transienter Transfektion von 

15 Saugerzellen durch geeignete Plasmidvektoren, welche die gleichzeitige Expression des GagPol 
und VSV-G (vesicular stomatitis virus Hullprotein G) Gens unterstutzen und die Verpackung 
eines therapeutischen Transgens sicherstellen, Viruspartikel erzeugt werden, die auch in der Lage 
sind, ruhende, postmitotische oder enddifferenzierte Zellen zu transduzieren. Dieses Verfahren 
zur Generierung transduktionskompetenter Viruspartikel kann wesentlich erieichtert und 

20 effizienter gestaltet werden, beispielsweise durch die Etablierung stabiler Zeliinien, z.B, 
basierend ^uf human embryonic kidney Zellen (HEK293), die das GagPol Polyprotein konstitutiv 
Oder unter KontroUe eines induzierbaren Promoters exprimieren. Altemativ konnen auch 
rekombinante Adenoviren generiert werden, die die Verpackungsfunktionen, die 
Rezeptorfunktionen und die Transgenflinktionen oder Kombinationen daraus kodieren, und so 

25 als Werkzeug zxim ex vivo, in situ und in vivo Delivery von retro- oder lentiviralen Vektoren 
dienen. 

Die durch SEQ ID NO: 3 kodierten Hullproteine oder Derivate davon konnen die 
Rezeptorfunktion fur lenti-. spuma- oder retrovirale Vektoren oder anderer, auf umhullten Viren 
30 basierender Vektoren durch Inkorporation in den Lipid-Bilayer bereitstellen. Dazu konnen 
beispielsweise auch Verpackungslinien erzeugt werden, bei denen sowohl die GagPol Proteine 
von Retro-, Spuma- und vorzugsweise von Lentiviren, als auch die aus SEQ ID NO: 1 und 3 
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abgeleiteten Hullproteine entweder konstitutiv oder unter KontroUe eines induzierbaren, 
wahlweise eines in der AktivitSt regulierbaren Promoters exprimiert warden. Altemativ dazu 
kOnnen, beispielsweise basierend auf dem Genom von Typ C oder Typ D Retroviren oder 
anderer membranumhullter Viren wie z.B. Influenza- oder Herpesviren, chimare Viren generiert 
5 werden, die zusatzlich zu dem natiirlichen Httllprotein oder anstelle des naturlichen Hiillproteins 
ein von SEQ ID NO: 1 oder SEQ ID NO: 3 abgeleitetes Httllprotein auf der Oberflache tragen. 

Gegen die aus den SEQ IDs NO: 1 bis 3 abgeleiteten Peptide, Proteine oder Virus-ahnlichen 
Partikel kdnnen auch (i) polyklonale Antiseren, (ii) monoklonale Antik5rper (Maus, Mensch, 

10 Kamel), (iii) Antikorperderivate wie beispielsweise single-chain Antikfirper, humanisierte 
Antikorper, bispezifische Antikdrper, Phagen-AntikSrperbanken oder (iv) andere hochaffm 
bindende Polypeptide wie z.B. Derivate des hPSTI (human pancreatic secretory trypsin inhibitor) 
generiert werden. Diese Reagentien konnen zu therapeutischen Zwecken, beispielsweise zur 
Behandlung von HIV-Infektionen oder zu diagnostischen Zwecken, beispielsweise zur 

1 5 Herstellung von Testkits verwendet werden. 

Auf ahnliche Weise konnen die aus SEQ CD NO: 1, 2 oder 3 abgeleiteten Peptide, Proteine oder 
Nukleinsaure-Sequenzen fur diagnostische Zwecke, z.B. fur die Serodiagnostik and fur die 
Anwendung von Nukleinsaure-Hybridisierungstechniken oder Nukleinsaure- 
20 Amplifikationssystemen oder Kombinationen davon verwendet werden. Vorzugsweise konnen 
die erfindungsgemaBen Polynukleotid-Fragmente der Nukleotidsequenz gemaB SEQ ID NO: 1 in 
einer Polymerase-Kettenreaktion eingesetzt werden. Besonders bevorzugt werden die 
erfindungsgemaBen Polynukleotid-Fragmente der Nukleotidsequenz gemaB SEQ ID N0:1 zur 
Diagnostik mittels DNA-Chiptechnologie eingesetzt. 

25 

Die Erfindung wird durch die nun folgenden Beispiele erlautert, ist aber nicht auf diese 
beschrankt: 

Beispiel 1: 
30 Blutproben 

Alle Blutproben, die fur diese Studie verwendet wurden, wurden im Zuge der nationalen, 
molekularepidemiologischen Studie von 1996/1997 beziiglich HIV-1, Subtyp C, seropositiven 
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IDUs aus mehreren HTV-epidemischen Gebieten in China entnommen. Periphere mononukleare 
Blutzellen (PBMC) wurden mittels Ficoll-Gradienten abgetrennt. Die Viren warden durch 
Kokultivierung der PBMCs von seropositiven DDUs mit Phytohamaglutinin (PHA>stimulierten 
Donor-PBMCs isoliert. Positive Viruskulturen wurden aus den Zellkultur-tfberstanden 
5 nachgewiesen mittels des HIV-1 p24 Core Profile ELISA-Kits (DuPont Inc., Boston, MA). 



Beispiel 2: 

Polymerase Kettenreaktionen (PCR) und DNA-Sequenzierung 

Provirale DNA wurde aus produktiv infizierten PBMCs von mehr als einhundert ausge-wahlten 
10 HIV-l-positiven IDUs aus den nordwestlichen Provinzen Chinas extrahiert (Qiagen Inc., 
Valencia, CA). Die Nested-?CR wurde verwendet, um die kodierende Region fiir env C2V3 zu 
amplifizieren. Die PCR-Produkte wurden mittels der 7a^-cyc/e-Methode unter Ver-wendung von 
Fluoreszenzfarbstoff-markierten Terminatoren (Applied Biosystems, 373 A, Foster City, CA) wie 
karzlich beschrieben (Bai et al, 1997; Yu et al. 1997) direkt sequenziert. Multiple 
15 Sequenzvergleiche wurden unter Verwendung der Wisconsin software package Genetics 
Computer Group mit den Korrekturmethoden nach Kimura durchgefUhrt (GCG, 1997, Version 

9)- 

Beispiel 3: 

20 Phylogenetische Stammbaum-Analysen wurden von alien erhaitenen Sequenzen unter 
Verwendung des PHYLIP-Software-Pakets durchgeflihrt. Evolution^re Entfemungen wurden an 
Hand der maximum parsimony-Methodc berechnet und durch kumulative horizontale Lange der 
Zweige angegeben. Die statistische Robustheit des neighbour joining Stammbaums wurde wie 
kiirzlich beschrieben durch bootstrap resampling uberpnift (Graf et al. 1998). 

25 

Beispiel 4: 

Auswahl eines reprasentativen FOV-l-Isolats des Subtyps C von chinesischen IDUs 
Innerhalb der Gruppen betrugen die berechneten durchschnittlichen Abstande innerhalb der fiir 
C2V3 kodierenden Region auf DNA-Ebene 2,26 ± 1,43, was darauf hindeutet, daB die Epidemic 
30 in diesem Gebiet noch sehr jung ist. Die Unterschiede zwischen den Gruppen zwischen 
chinesischen Subtyp-C-Sequenzen und denen aus Indien, Afrika, und Sttdamerika betrugen 9,67 
± 2,31 (Indien), 15,02 ± 4,13 (Afrika) und 8,78 ± 3,41 (SUdamerika). Das zeigt eine enge 
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phylogenetische Verwandtschaft zwischen indischen und chinesischen Subtyp-C-Sequenzen 
(Lole et. al. 1999) und eine nennenswerte genetische Entfemung zu der per se relativ 
heterogenen Gruppe afrikanischer HlV-l-Stamine des Subtyps C. 

5 Beispiel 5: 

Identifizierung eines Virus-Isolats, das den in China zirkulierenden pravalenten Virus-Stamm des 
Subtyps C am besten reprasentiert 

Aus den analysierten Proben wurde ein als 97cn54 bezeichnetes reprasentatives Isolat 
identifiziert, das hochste Homologie (99,6%) zu einer berechneten Konsensus-Sequenz (cn- 

10 conV3), die auf Grundlage der charakterisierten lokalen HIV-Sequenzen (Tabelle 1) erstellt 
worden ist, aufweist. Multiple AminosMure-Sequenzvergleiche einschliefllich der 
Primarsequenzen der V3-Schleife von primaren Subtyp-C-Vertretem aus den verschiedensten 
epidemischen Regionen und auch Konsensus-Sequenzen von anderen Subtypen (A-H, O, CPZ) 
unterstrichen den Subtyp-C-Charakter des ausgewShlten Primarisolats 97cn54 (Tabelle 1). 

15 Verglichen mit einer V3-Gesamtkonsensus-Sequenz (consensus) zeigen sowohl 97cn54 als auch 
cn-con-c Aminosaure-Abweichungen an den Positionen 13 (H->R) und 19 (A->T), die beide 
charakteristisch fiir Isolate des Subtyps C sind (C_consensus). 

20 



25 



30 
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Tabelle 1: Aminosaure-Sequenz-Vergleich der V3-Schleifen: 

Position 1 11 21 31 38 

Consensus CTRPNNNTRK SIHIGPGQAF yA---TGDII GDIRQAHC 

5 

C_94IN11246 --r 1- -- --e-v -n 

C_93IN905 --r t- -- m 

C_93IN999 -vr e --r 1- --e-- 

C_consensus --r 1- 

10 C_ind8 -tr 1- 

97cn54-v3 g --r 1- 

cn-con-v3 g --r 1- 

C_bro025 --r --...--e-- 

15 C_indl024 --r t- r-y- 

C_nof r-rv tv --...-na-- 

C_zam20 -a--g --r 1- f-...--a-- 

C_sml45 ya -vr 1- - . . . . -n 

A_consensus -vr 

20 B_consensus r-- -t...--e-- 

D_consensus y q rt 1 -....-tr-- 

E_consensus s 1 --t v- -r. . . k-y- 

F_consensus 7-- 1 k 

G_consensus --t 

25 H_consensus --s k-y- 

0 consensus -e--gidiqe . -r .m-w -smglg-tng nss-a-y- 



Tabelle 1: Der Aminosaure-Sequenz-Vergleich der V3-Schleifen von Konsensus-Sequenzen 
verschiedener Subtypen von HIV- 1 (A-0) und ausgewahlte Isolate des Subtyps C aus 

30 verschiedenen Landem. Die V3-Gesamtkonsensus-Sequenz wurde durch den Vergleich der 
Konsensus-Sequenzen von verschiedenen Subtypen (A-0) eimittelt. cn-con-V3 stellt die 
Konsensus-Sequenz von HIV-l-Stammen Subtyps C. die in China pravalent sind, dar. 97cn54 
wurde als reprasentatives Standard-Isolat der in China vorkommenden pravalenten HIV-1- 
Stamme des Subtyps C ausgewahlt. bedeutet keinen Austausch gegenuber der V3-Konsensus- 

35 Sequenz, Kleinbuchstaben bedeuten eine Aminosaure-Substitution und bedeutet LUcken. Alle 
Konsensus- und Isolat-Sequenzen fur multiple Vergleiche wurden von der Datenbank Los 
Alamos erhalten. 

Beispiel 6: 

40 Die fur das 97cn54 Hiillprotein kodierende Sequenz ist am nachsten verwandt mit Virus- 
Stammen des Typs C aus Indien. 

Phylogenetische Stammbaum-Analysen, urspriinglich basierend auf den C2V3-Sequenzen des 
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env-Gens, ergaben, daB sowohl 97cn54 als auch die Konsensus-Sequenz der chinesischen Isolate 
des Subtyps C sich mit den Stammen des Subtyps C aus Indien (indS, dl024, c-93in905. c- 
93in999, c-93inll246), aus Afrika (c-eth2220, c-ug286a2), irnd aus SUdamerika (92br025, nof, 
cam20 und sml45) gruppieren (clustem). Dies weist darauf hin, daB die indischen Virus-Stamme 
5 des Subtyps C der Ursprung der Epidemie von HIV-l, Subtyp C, in China sein konnten (Figur 1). 
Diese Hypothese stimmt auch Uberein mit unserer frUheren epidemiologischen Erkenntnis, die 
bestatigt, dafl mit HTV-l, Subtyp C, infizierte Menschen in Yunnan Injektionskaniilen mit 
indischen Schmuckhandlem im Grenzgebiet geteilt haben sollen (Shao et al. 1999). 

Beispiel 7: 

Klonierung des HW-l-Genoms von im wesentlichen voller Lange 

Genome von HIV-l von im wesentlichen voller Lange wurden araplifizeirt mittels des Expand 
Long Template PCi?-Systems (Boehringer-Mannheim, Mannheim, Deutschland), wie 
beschrieben bei Graf et al. (1998) und Salminen et al. (1995). Die Startermolekule (Primer) 
wurden in konservierten Regionen innerhalb der langen terminalen Wiederholungen (LTR) von 
HIV-l positioniert: TBS-Al (5'-ATC TCT AGC AGT GGC GGC CGA A) und NP-6 (5'-GCA 
CTC AAG GCA AGC TTT ATT G). Gereinigte PCR-Fragmente wurden mit glatten Enden in 
einen mit 5r/r verdauten pCR-Script-Vektor (Stratagene, Heidelberg, Deutschland) ligiert und in 
den E, co//-Stamm DH5a transformiert. Verschiedene rekombinante Klone, die im wesentlichen 
das HIV-l-Genom voller Lange enthielten, wurden mittels Restriktionsfragmentlangen- 
Polymorphismus (RFLP) und Sequenzierung der kodierenden Sequenz der V3-Schleife 
identifiziert. Laut RFLP- Analyse unter Venvendung verschiedener Kombinationen von 
Restriktionsendonukleasen und nachfolgender Sequenzierung der kodierenden Sequenz der V3- 
Schleife waren 77% der positiven Konstrukte voller Lange nahezu identisch. Ein Provirus- 
Konstrukt, das die breite Mehrheit der positiven Klone reprasentiert, wurde ausgewahlt und wie 
oben beschrieben unter Venvendung des primer-walking-AnsdXzts sequenziert (die 
Startermolekiile wurden ungefahr alle 300 bp entlang des Genoms fUr beide Strange entworfen). 

Beispiel 8: 

30 DNA-Sequenzen wurden unter Venvendung der Lasergene Software (DNASTAR, Inc., Madison, 
WI) auf Macintosh-Computem zusammengesetzt. Alle Referenzsequenzen der Subtypen dieser 
Studie sind von der Los Alamos HIV Datenbank. Ahnlichkeiten in der Nukleotid-Sequenz 
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wurden mittels des lokalen Homologie-Algorithmus von Smith und Waterman berechnet. 
Multiple Sequenzvergleiche mit verfUgbaren Sequenzdaten anderer Subtypen wurden unter 
Venvendung des Wisconsin Softwarepakets Genetics Computer Group (GCG, 1997, Version 9) 
durchgefilhrt. 

5 

Beispiel 9: 

Gesamtstruktur der kodierenden Sequenz von 97cn54 

Die 9078 bp lange genomische Sequenz des Isolats 97cn54 enthielt alle bekannten strukturellen 
und regulatorischen Gene des HIV-l-Genoms. Es wurden keine wesentiichen Deletionen, 

10 Insertionen oder Umlagenmgen gefimden. Die Ahnlichkeiten in der Nukleotid-Sequenz wurden 
untersucht mittels Vergleich aller kodierenden Sequenzen (CDS) von 97cn54 mit Konsensus- 
Sequenzen verschiedener Genotypen und ausgewahlter Subtyp-Isolate (Tabelle 2). Die hochsten 
Homologien der Leserahmen von gag, pol, env imd vif zu den entsprechenden Konsensus- 
Sequenzen des Subtyps C lagen in einem Bereich von 93,93 bis 95,06%. Diese Beobachtung 

15 erweiterte den oben beschriebenen Sequenzvergleich und die phylogenetische Stammbaum- 
Anaiyse aufgrund von C2V3 erheblich (siehe Tabelle I und Figur 1). Sie bestatigte daher 
eindeutig, daB das ausgewahlte Virus-Isolat zur Gruppe der kurzlich veroffentlichten Virus- 
Stamme des Subtyps C gehort. Die durch diese Art der Analyse fiir die Gene tat, vpu, vpr und nef 
bestimmten Werte der Homologie waren jedoch nicht ausreichend, urn eine klare Zuordnung 

20 dieser Leserahmen zu Virus-Stammen des Subtyps B oder C zu erlauben (Tabelle 2). Fiir das 
Gen vpu wurden die hochsten Homologien zu den Subtypen B registriert (94,24%), wahrend die 
Homologie zu der Konsensus-Sequenz des Subtyps C nur 78,23% betrug. Ahnliche 
Beobachtungen wurden fiir das Gen tat gemacht: hochste Homologie zum Isolat B*-rl42 (>91%). 
im Vergleich zu 87,9% (C-92br025) und 85,5% (C-eth2220) fur ausgewahlte primare Vertreter 

25 des Subtyps C oder 89,01% fiir die Konsensus-Sequenz des Subtyps C. Diese Daten legten 
zusammen mit dem Auftreten der Genotypen B, C und E im ganzen epidemischen Gebiet von 
Yunnan nahe, daB das analysierte Virus-Isolat einen Mosaik-Virusstamm darstellen konnte, der 
die Folge eines Rekombinationsvorgangs zwischen Subtyp B' und Subtyp C ist. 



30 
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Tabelle 2: Vergleich der kodierenden Sequenzen von 97cn54 mit den entsprechenden Genen von 
Referenz-StSmmen und Subtyp-spezifischen Konsensus-Sequenzen. 



Prozent Identitat mit 97cn54 







DOl 


■^vH 


vor 


Ha! 


rev 


vpu 
• 


env 




A 


87 68 


91,80 


86 81 


83.66 


84.90 


83.97 


79.82 


85.75 


84.19 


B 


90.43 


91.93 


88.04 


90.31 


d0.50 


oZ.Uo 


OA 'yA 




OO.l J 


B-mn 


89.38 


90.82 


86.01 


8931 


87.44 


79.48 


88.21 


82.33 


85.41 


B^rl42 


91.53 


90.76 


86.01 


88.97 


91.163 


80.23 


96.74 


82.70 


85.99 


C 


94.65 


94.29 


95.06 


9139 


89.01 


91,99 


78.23 


93.93 


88.82 


C- 


92.19 


92.91 


88.51 


90.03 


87.91 


89.70 


76.13 


88.51 


86.20 


92br025 
C- 


91.4 


92.06 


87.15 


90.77 


85.57 


88.08 


80.09 


87.15 


87.08 


eth2220 
D 


89.80 


91.08 


87.74 


87.94 


83.93 


84.39 


87.30 


85.26 


86.88 


E/A 


86.324 


89.07 


86.59 


83.39 


81.44 


81.74 


77.31 


82.09 


84.18 


F 


88.02 


88.99 


86.36 


86.25 


80.65 


86.25 


82.33 


84.02 


/ 


G 


88.08 


/ 


/ 


/ 


/ 


/ 


/ 


84.55 


/ 


H 


87.69 


89.45 


86.01 


85.22 


/ 


/ 


/ 


83.74 


/ 


O 


73.42 


78.02 


72.12 


76.604 


72.31 


76.60 


59.54 


67.01 


80.35 


CPZ 


74.14 


78.80 


93.75 


75.44 


76.00 


75.44 


64,41 


72.42 


/ 



5 Tabelle 2: Nukleotidsequenz- Vergleich aller kodierenden iSequenzen (CDS) zwischen 97cn54 
und DNA-Sequenzen, die entweder (1) Konsensus-Sequenzen bestimmter HlV-l-Subtypen 
(erhalten von der Los Alamos HIV-Datenbank) oder (2) Isolate des Standard-Subtyps C (92br025 
und eth2220) und B (mn und rl42) darstellen. Die Daten geben die Identitat einer bestimmten 
Sequenz mit 97cn54 in Prozent an. Nicht-eindeutige Nukleotid-Positionen innerhalb der 

10 Konsensus-Sequenzen wurden als identisch bewertet. Die hochsten Homologien sind in 
Fettdruck hervorgehoben. "/" bedeutet, dafl von der Los Alamos Datenbank keine Konsensus- 
Sequenz verfugbar war. 

Beispiel 10: 

1 5 Bestimmung der Rekombinationen zwischen den Subtypen 

Das rekombinante Identifikationsprogramm (RIP, Version 1.3; http://hiv-wew.Ianl.gov/tools) 
wurde verwendet, um potentielle Mosaik-Strukturen innerhalb der Gesamtsequenz dieses Klons 
zu identifizieren (FenstergroBe: 200; Schwellenwert fiir die statistische Signifikanz: 90%; 
Umgang mit Lucken: STRIP; informativer Modus: OFF)- Es wurden LUcken eingefiihrt, um den 
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Vergleich zu ermoglichen. Die Hintergrund-Sequenzen der Subtypen in dieser Analyse waren: 
u455 (Subtyp A)» RL42 (chinesischer Subtyp B-Thai (B')), eth2220 (Subtyp C), z2d2 (Subtyp D). 
93th2 (Subtyp A/E). 

5 Beispielll: 

Rekombination zwischen den Subtypen in der kodierenden Region filr Gag-Pol von 97cn54 
Auch wenn wesentliche Homologien zu den Virusstammen des Subtyps C innerhalb der 
hochkonservierten Leserahmen von gag und pol beobachtet warden, identifizierte die RIP- 
Analyse 3 Bereiche der intra-subtypischen Rekombination innerhalb gagpol urn die Posi-tionen 

10 478-620, 1290-1830 und 2221-2520 oberhalb des Startkodons von gag. Diese ver-streuten 
Abschnitte liegen innerhalb der Leserahmen von gag und pol und weisen hochste Ho-mologien 
zu dem Prototyp B (Daten nicht gezeigt) und insbesondere zu einem Isolat des Subtyps B(B'), das 
aus Yunnan kommt (Figur 2), auf. Diese Beobachmng unterstreicht ein-deutig die Wichtigkeit 
von RIP-Analysen, da einfache Homologie-Vergleiche auf der Basis von kompletten Genen nicht 

15 in der Lage waren, diese kleinen yerstreuten Fragmente eines anderen Subtyps zu identifizieren. 
Urn die mittels RIP-Analyse erhaltenen Daten zu bestati-gen, erstellten wir mehrere 
phylogenetische Stammbaume unter Verwendung 'der Regionen, die die Bereiche der 
vorgeschlagenen Rekombination entweder flankieren oder uberspannen (Figur 3). Unter 
Verwendung mehrerer Standard- Vertreter verschiedener Subtypen und eini-ger ausgewahlter 

20 Prim^-Isolaten des Subtyps C konnten alle vorgeschlagenen Bereiche der Rekombination 
bestatigt werden durch differenzielles Clustem von 97cn54 mit den jeweiligen Referenz-Isolaten 
der Subtypen C (Figuren 3 A, C, E, G) oder B (Figuren 3 B, D, F). 

BeispieJ 12: 

25 Intersubtyp-Rekombination in der fiir env kodierenden Region von 97cn54 

Wie die in Tabeile 2 zusammengefassten Sequenzvergleiche erwarten lieBen, bestatigte die RIP- 
Analyse die Intersubtyp-Rekombination zwischen Subtyp (B')-Thai und C (Figur 4) eindeutig. 
Ein Fragment von etwa 1000 bp L^ge, das sich von den 150 3'-terminalen bp von vpr tiber das 
erste Exon von tat und rev bis zu vpu erstreckt, zeigte das hochste AusmaB an Homologie mit 

30 dem Vertreter des lokalen Subtyps (B') (rl42) (Figur 4 A). Dariiber hinaus zeigte ein etwa 300 bp- 
langer Sequenzbereich, der mit der 5 -HSlfte des Gens nef iiberlappt, h5chste Homologie mit dem 
Subtyp (B')-Thai, wohingegen der verbleibende Teil einschlieBlich eines Fragments von 300 bp 
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Lange, der sich in die 3*-LTR-Region erstreckt, mit Subtyp C gruppiert (clustert) (Figur 4 B). 

Unter Erweiterung der RlP-Analyse zeigten phylogenetischen Staminbaume die engste 
Verwandtschaft von vpr/vpu und dem 5'-Bereich des nef-Gens zu Isolaten des Subtyps B (Figur 5 
5 A, B), wohingegen das 3'-nef-Fragenient sich eindeutig mit Vertretem des Subtyps C gruppierte 
(Figur 5 C). Weitere Analysen bestatigten, daB die Sequenz des Subtyps B innerhalb dieses 
Mosaiks naher verwandt ist mit einem kurzlich beschriebenen Thai-(B*)-Stainms (rl42), der 
isoliert wurde von einem chinesischen IDU (Graf et al. 1998), als zu Prototyp-Isolaten des 
Subtyps B (mn und sf2) (Tabelle 2). 

10 

Beispiel 13: 

Reprasentativer Charakter von 97cn54 

In den kodierenden Regionen von vpr/vpu und dera nef-Gen von 97cn54 liegende Bruchstellen 
warden in fast identischen Postionen bei alien Stammen des Subtyps C, die aus in den 

15 nordwestlichen Provinzen von China lebenden IDUs isoliert wurden, geflinden. 2 RJP- Analysen, 
die reprasentativ fur 8 unabhangig voneinander isolierte und analysierte HIV-l-Stamme von 
verschiedenen mit HIV-1 infizierten Personen in der autonomen Region Xinjiang isoliert 
wurden, sind in den Figuren 4 C und D dargestellt. Was die Herkunft von 97cn54 (Sudwesten 
von China) und xj24 und xjl5 (nordwestliches Gebiet) betrifft, legen diese Daten fur die durch 

20 China zirkulierenden C/B'-rekombinanten Stamme einen gemeinsamen Vorlaufer nahe. Unsere 
Ergebnisse zeigen also, daB 97cn54 ein C/{B')-Intersubtyp-Mosaikvirus mit 10 Bruchstellen der 
Intersubtyp-Rekombination darstellt, das unter den EDUs innerhalb der nordwestlichen Provinzen 
Chinas am starksten pravalent ist. Eine schematische Darstellung des (BVC)-Mosaikgenoms von 
Isolat 97cn545 ist in Figur 6 dargestellt. 

25 

Beispiel 14: 

Vorhersage der iiber Subtypen hinaus kreuzreaktiven spezifischen Epitope fiir HIV-spezifische 
zytolytische T-Zellen 

Genomische Sequenzen erofftien die Moglichkeit, die Konserviertheit von bekannten CTL- 
30 Epitopen zu ermitteln, die einen EinfluB haben kdnnen auf die Effektivitat von HIV-1- 
Impfstoffkandidaten. Die meisten Reagenzien und Daten beziiglich CTL-Epitopen stammen von 
Sequenzen von HIV-Ilai des Subtyps B. Um die Konserviertheit von iiber Subtypen hinaus 
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kreuzreaktiven CTL-Epitopen abzuschStzen, wurden die vorhergesagten Protein-Sequenzen von 
97cn54 mit den bekannten und am besten kartierten LAI-spezifischen CTL-Epitopen verglichen. 
Von den 194 beschriebenen CTL-Epitopen von fflV-l liegen 75. 55, 40 und 24 in Gag, (pl7. 
p24, pl5). in der Reversen Transkriptase (RT), in gpl20 bzw. in gp4L Wahrend fast 50% oder 
5 mehr der Epitope in Gag und RT vollig identisch sind, stimmten nur 5% und 17% der von HIV- 
Ilai abgeleiteten CTL-Epitope von gpl20 und gp4l exakt mit der fur 97cn54 vorhergesagten 
Aminosaure-Sequenz Uberein. Wenn man jedoch zwei konservative Fehlpaarungen in einem 
bestimmten CTL-Epitop zuMt, war ein zusStziicher Bereich von 48% (pi 7), 33% (p24). 40% 
(RT). 57% (gpl20) imd 33% (gp41) der bekannten CTL-Epitope von HIV-Ilai verwandt mit den 

10 Sequenzen in den entsprechenden von 97cn54 abgeleiteten Polypeptiden. Natiirlich muB diese 
letzte Betrachtung mit einiger Vorsicht aufgenommen werden, da sogar nicht-konservative 
Austausche die HLA-Bindung oder die T-Zell-Rezeptorerkennung eines antigenen Peptids 
beseitigen kann. Zusammengenommen sagen diese Beobachtungen jedoch eindeutig eine 
betrSchtliche uber die Subtypen hinaus kreuzreaktive CTL-Reaktivitat voraus, insbesondere der 

15 fiinktionell und immunologisch konservierten Proteine von HIV-1. AuBerdem legen diese Daten 
nahe, daC ein betrachtlicher Anteil der Reagenzien (Peptide, Vakziniavirus-Konstrukte), die fur 
die Kartierung und Charakterisierung von CTL-Epitopen des Subtyps B synthetisiert und 
etabliert worden sind, auch nutzlich sein konnen fUr die Bestimmung von CTL-Reaktivitaten auf 
Basis von HIV-Sequenzen des Subtyps C. 

20 



Tabelie 3: Leserahmen der kodierenden Sequenz von 97cn54 



Leserahmen 


Start 


Ende 


Start 


Ende 


gag 


177 


1654 






pol 


1447 


4458 






env 


5589 


8168 






vif 


4403 


4984 






vpr 


4924 


5214 






vpu 


5426 


5671 






tat 


5195 


5409 


7730 


7821 


rev 


5334 


5409 


7730 


7821 



nef 



8170 8790 
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Die Nummem beziehen sich auf das 5'-Ende der in SEQ ID NO: I wiedergegebenen DNA 
Sequenz. 

Belspiel 15: 

5 (A) Beschreibung der synthetischen kodierenden Region fur C54gp 1 60: C-gpl 60 

Das C-gpl 20-Gen wurde in die einzigen KpnI/Sacl-Restriktionsschnittstellen des pCR-Script 
amp(+)-Klonierungsvektors (Stratagene, Genbank Accession: U46017) kloniert. Die 
synthetische, im Kodongebrauch an stark exprimierte SSugergene angepaflte kodierende Region 
von C54gpl60 ist in SEQ ID NO: 3 dargestellt. Die synthetische Signalsequenz kodiert ein 
10 Transportsignal flir den Import des kodierten Polypeptids in das endiplasmatische Retikulum. 
Die Positionen der verschiedenen kodierenden Regionen sind wie folgt: 



CDS 


Start 


Ende 


synthetische 
Signalsequenz 


28 


87 


gpl60 


88 


2580 



(B) Beschreibung der synthetischen Sequenz von C54 gagpohief: C-gpnef 
15 Das Gen C-gpnef wurde in die einzigen Kpnl/Sacl-Restriktionsschnittstellen des pCR-Script 
amp(+) Klonierungsvektors (Stratagene) kloniert. Die synthetische, im Kodongebrauch an stark 
exprimierte Saugergene angepafite Sequenz von C54gagpolnef ist in SEQ ID NO: 2 dargestellt. 
In dem vorliegenden Konstrukt wurde das N-terminale Glycin gegen Alanin (Nukleotidsequenz 
GGC) ausgetauscht, urn ein Targeting des Polypeptides an die Zytoplasmamembran und die 
20 anschleiBende Sekretion von assemblierten Virus-ahnlichen Partikehi via Budding zu vemeiden. 
Gleichzeitig wurde an der natiirhchen Frameshift-Sequenz ein (-1) Leserastersprung eingefUhrt, 
der ein obligates Durchlesen der Ribosomen aus dem Gag- in den Pol Leserahmen garantiert und 
so die Synthese eines GagPolNef Polyproteins sicherstellt. 



25 
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Die Positionen der verschiedenen kodierenden Regionen sind wie folgt: 



PCT/DEOO/04073 



CDS 


Start 


Ende 


gag 


13 


1500 


5'po! (ART) 


1501 


2460 


scrambled nef 


2461 


3090 


3'pol (AIM) 


3091 


4155 


RT aktives 
Zentrum 


4156 


4266 



Beispiel 16: 

5 Das durch SEQ ID NO: 1 kodierte GagPolNef Polygen wurde uber KpnI/XhoI in den Vektor 
pcDNA3.1 inseriert und in den E.coli Stanim XLlblue transformiert. Die FShigkeit des 
GagPolNef Expressionsvektors eine Gag-spezifische Antikorperantwort zu induzieren wurde in 
weiblichen BALB/c Mausen analysiert (Fig. 9). Zwei Gruppen von jeweils 5 Tieren erhielten 
jeweils eine intramuskulEire (i.m.) Primarimmunisierung von 100 ^g DNA pro Immunisierung 

10 gefolgt 2 i.m. Folgeimraunisierungen 3 und 6 Wochen spater (Gruppe 1: pcDNA-GagPolNef; 
Gruppe 2: pcDNA). Eine KontroUgruppe (Gruppe 3) wurde lediglich mit PBS immunisiert. Die 
Gesamttiter an Gag-spezifischem IgG wurden gegen gereinigtes Gag-Protein im ELISA 
bestimmt. Die Impfung mit pcDNA-GagPoINef resultierte in einer schnellen Induktion hoher 
Titer an Gag spezifischen Antikorpem (1:4.000), die gekennzeichnet war durch ein typisches 

15 Thl Profil an Antikorper Isotypen (IgG2a » IgGl). Die beiden Kontrollgruppen 2 und 3 
lieferten keine Hinweise auf die Generierung Gag-spezifischer Antikorper. Die AntikSrpertiter 
stiegen beinahe um das hundertfache (1:20.000) I Woche nach der ersten Folgeimmunisierung 
und erreichten Gag-spezifische Endpunkttiter von 1:80,000 eine Woche nach der zweiten 
Boosterimmunisierung. Zu keinem Zeitpunkt konnte bei den beiden Kontrollgruppen eine 

20 signifikante, Gag-spezifische Antikorperantwort nachgewiesen werden. 
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Beispiel 17: 

Die Antigen-spezifische Zytokinsekretion als Hinweis auf die Induktion einer T-Helfer Memory- 
Antwort wurde aus Milzzellen analysiert, die jeweils 5 Tage nach der zweiten 
Folgeimmunisierung entnommen wurden. Die Milzzellen der Mause, die drei i.m. 
5 Immunisierungen mit pcDNA-GagPolNef erhalten hatten, reagierten mit einer deutlichen gEFN 
Sekretion auf Gag-spezifischen Antigenstimulus (Tabelle 3). Eine vergleichsweise reduzierte 
gIFN Produktion wurde Milzzellen beobachtet, die aus Mausen nach dreimaliger subkutaner 
(s.c.) Oder intradermaler (i.d.) Inununisierung mit pcDNA-GagPolNef nach dem selben Schema 
wie oben gewonnen wurden. In alien Immunisienmgsgruppen wurden, unabhSngig von der 
10 Immunisierungsroute, keine nennenswerte IL4- und IL5 Sekreten aus den spezifisch in vitro 
restimulierten Milzzellen festgestellt. Eine Zytokinsekretion aus nicht-stimulierten Milzzellen 
wurde nicht beobachtet. 

Die i.m. Immunisierung mit pcDNA-GagPolNef fuhrte demnach zu einem starken Thl Zytokin- 
15 Profil, wahrend die subkutane Verabreichung eher eine schwache Thl Antwort induzierte. 
Tabelle 4: Zytokin-Profil von in vitro Gag-stimulierten Milzzellen von Mausen i 
Immunisierung (Nadelinjektion) oder i.d. bzw. s.c. Immunisierung durch eine Part 
mit den angegebenen DNA Konstrukten 

DNA Vakzine IL-4 (pg/ml) IL-5 (pg/ml) JFN-y (pg/ml) 

pcDNA-GagPolNef <8 <\6 3220 ± 840 

(i.m.) 

pcDNA-GagPolNef(i.d.) <8 <16 80 ±32 

pcDNA.GagPolNef(s.c.) <8 <16 <32 

Mittelwerte + Standardabweichung von Milzzellen, gewonnen jeweils aus 5 Mausen pro 

Experiment 

Beispiel 18: 

20 Urn die Fahigkeit von pcDNA-GagPolNef zur Induktion Gag-spezifischer CTLs zu uberpriifen 
wurden Milzzellen 3 Wochen nach einer primaren Immunisierung mit pcDNA-GagPolNef 
(Gruppe 1), pcDNA (Gruppe 2) und PBS (Gruppe 3) in vitro in einer gemischen-Lymphozyten- 
Tumor-Zellkultur fiir 6 Tage spezifisch restimuliert und anschheflend hinsichtlich ihrer 
zytotoxischen AktivitSt untersucht. Bei dem nonameren, vom Gag Protein der Subtyp B-Viren 
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(niB-Isolat) abgeleiteten AMQMLKETI Peptid (Einbuchstabencode), das in diesem Versuch zur 
in vitro Restimulation gleichwie zur Bestimmung der spezifischen zytotoxischen Aktivitat 
eingestzt wurde, stellt bekannterweise ein D'*-restringiertes CTL Epitope in der BALB/c Maus 
dar. Gflg-spezifische zytotoxische T-Zellen konnten nach einer einmaligen i.m. Injektion mit 
5 dem pcDNA-GagPolNef Plasmid, nicht jedoch in einer der beiden Kontrollgruppen 2 und 3 
festgestellt werden. Die Behandlung von Milzzellen mit dem oben genannten Peptid resultierte 
nicht in einem in vitro Priming Gag-spezifischer zytotoxischer T-Zellen. Diese Ergebnisse 
bestatigen (i) die Fahigkeit von pcDNA-GagPolNef zur Induktion Spezifischer zytotoxischer T- 
Zellen, die (ii) Subtyp-ubergreifend aktiv sind (Figur 9). 

10 

Literatur 

Bai, X., Su, L., Zhang, Y., and et al(1997). Subtype and sequence analysis of the C2V3 region of 
gpl20 gene among HIV-1 strains in Xinjiang. Chin. J. Virology 13. 

Carr, J. K.. Salminen, M. O., Koch, C, Gotte, D., Artenstein, A. W., Hegerich, P. A., St Louis, 
15 D., Burke, D. S., and McCutchan, F. E.(1996). Full-length sequence and mosaic structure of a 

human immunodeficiency virus type 1 isolate from Thailand. J. Virol. 70, 5935-5943. 

Carr, J. K., Salminen, M. O., Albert, J., Sanders Buell, E., Gotte, D., Birx, D. L, and 

McCutchan, F. E.(1998). Full genome sequences of human immunodeficiency virus type i 

subtypes G and A/G intersubtype recombinants. Virology 247, 22-3 1. 
20 Esparza, J., Osmanov, S., and Heyward, W. L.(1995). HIV preventive vaccines. Progress to date. 

Drugs 50, 792-804. 

Expert group of joint United Nations programme on HIV/AIDS(1999). Implications of HIV 
variability for transmission: scientific and policy issues. AIDS 11, UNAIDS 1-UNAIDS 15. 
Gao, F., Robertson, D. L, Morrison, S. G., Hui, H.. Craig, S., Decker, J., Fultz, P. N., Girard, M., 
25 Shav^, G. M., Hahn, B. H., and Sharp, P. M.{1996). The heterosexual human immunodeficiency 
virus type 1 epidemic in Thailand is caused by an intersubtype (A/E) recombinant of African 
origin, y. Virol. 70, 7013-7029. 

Gao, F., Robertson, D. L., Carruthers, C. D,, Morrison, S. G., Jian, B., Chen, Y., Barre Sinoussi, 
F., Girard, M., Srinivasan. A., Abimiku, A. G., Shaw, G. M., Sharp. P. M„ and Hahn, B. 
30 H.(1998). A comprehensive panel of near-full-length clones and reference sequences for non- 
subtype B isolates of human immunodeficiency virus type 1. / ViroL 12, 5680-5698. 
Gaywee, J., Artenstein, A. W., VanCott, T. C, Trichavaroj, R., Sukchamnong, A., Amlee, P., 



wo 01/36614 PCT/DEOO/04073 

34 

de Souza, M., McCutchan, F. E., Carr, J. K., Markowitz, L. E., Michael, R., and Nittayaphan, 
S.{1996). Conelation of genetic and serologic approaches to HIV-1 subtyping in Thailand. J, 
Acguir Immune. Defic, Syndr. Hum, Retroviroi 13, 392-396. 

Graf, M., Shao, Y., Zhao, Q., Seidl, T., Kostler, J., Wolf, H., and Wagner, R.(1998). Cloning and 
5 characterization of a virtually full-length HIV type 1 genome from a subtype B -Thai strain 
representing the most prevalent B-clade isolate in China. AIDS Res, Hum, Retroviruses 14, 285- 
288. 

Graham, B. S. and Wright, P. F.(1995). Candidate AIDS vaccines. A^. Engl, J. Med, 333, 1331- 
1339. 

10 Kostrikis, L. G., Bagdades, £., Cao, Y., Zhang, L., Dimitriou, D., and Ho, D. D.(1995). Genetic 
analysis of human immunodeficiency virus type 1 strains from patients in Cyprus: identification 
of a new subtype designated subtype 1. / Virol, 69, 6122-6130. 

Leitner, T. and Albert, J.(1995). Human Retroviruses and AIDS 1995: a compilation and 
analysis of nucleic acid and amino acid sequences. (Myers, G., Korber, B., Wain-Hobson, S., 
15 Jeang, K., Mellors, J., McCutchan, P., Henderson, L., and Pavlakis, G. Eds.) Los Alamos 
National Laboratory, Los Alamos, N. Mex. ini47-I[I150. 

Lole, K. S., Bollinger, R. C, Paranjape, R. S., Gadkari, D., Kulkami, S. S., Novak, N. G., 
Ingersoll, R., Sheppard, H. W., and Ray, S. C.(1999). Full-length human inununodeficiency virus 
type 1 genomes from subtype C-infected seroconverters in India, with evidence of intersubtype 
20 recombination. 7. Virol. 73, 152-160. 

Loussert Ajaka, I., Chaix, M. L., Korber, B., Letoumeur, F., Gomas, E., Allen, E., Ly, T. D., 
Brun Vezinet, F., Simon, F., and Saragosti, S.(1995). Variability of human immunodeficiency 
virus type 1 group O strains isolated from Cameroonian patients living in France. . J. Virol. 69, 
5640-5649. 

25 Luo, C. C, Tian, C, Hu. D. J., Kai, M.. Dondero, T., and Zheng. X.(1995). HIV-1 subtype C in 
China [letter]. Lancer 345, 1051-1052. 

Myers, G., Korber, B.. Foley, B., Jeang, K. T., Mellors, J. W., and Wain Hobson, S.(1996). 
Human retroviruses and AIDS: a compilation and analysis of nucleic acid and amino acid 
sequences, (Anonymous Theoretical Biology and Biophysics Group, Los Alamos, N. Mex. 
30 Sahninen, M, O., Koch, C. Sanders Buell. E., Ehrenberg, P. K., Michael, N. L., Carr, J. K., 
Burke, D. S., and McCutchan, F. E.(1995). Recovery of virtually fijll-length HPZ-l provirus of 
diverse subtypes from primary virus cultures using the polymerase chain reaction. Virology 213, 



wo 01/36614 PCT/DEOO/04073 

35 

80-86. 

Shao, Y., Zhao, Q., Wang B., and et al(1994). Sequence analysis of HIV env gene among HIV 
infected IDUs in Yunnan epidemic area of China. Chin, J, Virology 10, 291-299. 
Shao, Y., Su, L., Sun, X., and et al(l998). Molecular Epidemiology of HIV infection in China. 
5 1 2th world AIDS conference, Geneva 13132, (Abstract). 

Shao, Y., Guan, Y., Zhao, Q., and et al(1999). Genetic variation and molecular epidemiology of 
the Ruily HTV-l strains of Yunnan in 1995. Chin, / Virol, 12, 9. 

Sharp, P. M., Robertson, D. L., and Hahn, B. H.(1995). Cross-species transmission and 
recombination of 'AIDS' viruses. Philos, Trans. R, Soc, Lond. B, Biol. Sci. 349, 41-47. 
10 Sharp, P. M., Bailes, E., Robertson, D. L., Gao, F., and Hahn, B. H.(1999). Origins and evolution 
of AIDS viruses. BioL Bull, 196, 338-342. 

World Health Organisation Network for HIV Isolation and Characterization(1994). HlV-1 
variation in WHO-sponsored vaccine-evaluation sites:genetic screening, sequence analysis and 
preliminary biological characterization of selected viral strains. AIDS Res, Hum. Retroviruses 
15 10, 1327-1344. 

Yu, H., Su, L., and Shao, Y.(1997). Identification of the HTV-l subtypes by HMA and 
sequencing. Chin, J, Epidemiol. 18, 201-204. 



10 



wo 01/36614 PCT/DEOO/04073 

36 

Patentanspriiche 

1. Ein Polynukleotid umfassend eine Nukleinsauresequenz gemafl SEQ ID N0:1, 2 oder 3 
Oder dessen Fragment oder Derivat, oder ein Polynukleotid, das mit der 
Nukleinsauresequenz gemaB SEQ ID N0:1, 2 oder 3 hybridisiert. 

2. Polynukleotid oder dessen Fragment oder Derivat nach Anspruch 1, wobei das 
hybridisierende Polynukleotid unter . stringenten Bedingungen mit der 
Nukleinsauresequenz gemSB SEQ ID NO:l, 2 oder 3 hybridisiert. 

3. Polynukleotid oder dessen Fragment oder Derivat nach Anspruch 1 oder 2, umfassend 
mindestens eine kontinuierliche Sequenz von mindestens 9 Nukleotiden, bevorzugt 
mindestens 15, mehr bevorzugt mindestens 27, oder mehr Nukleotide. 



15 4. Polynukleotid oder dessen Fragment oder Derivat nach Anspruch 3 mit mehr als einer 
kontinuierlichen Sequenz von Nukleotiden, wobei mindestens zwei der kontinuierlichen 
Sequenzen durch einen Nukleotid-Platzhalter ("spacer") getrennt sind. 

5. Polynukleotid oder dessen Fragment oder Derivat nach einem der Anspruche 1 bis 4, 
20 welches fur wenigstens ein Polypeptid kodiert, welches kodiert wird durch die unter SEQ 

ID NO: 1, SEQ ID NO: 2 oder SEQ ID NO: 3 beschriebene Nukleotidsequenz. 

6. DNA-Konstrukte, umfassend das Polynukleotid oder dessen Fragment oder Derivat nach 
einem der Anspruche 1 bis 5. 

25 

7. Bakterieller oder viraler Vektor, umfassend das Polynukleotid oder dessen Fragment oder 
Derivat nach einem der Anspruche 1 bis 5. 

8. Polynukleotid oder dessen Fragment oder Derivat nach einem der Anspruche 1 bis 5 als 
30 Arzneimittel. Impfstoff oder Diagnostikum. 



9. 



Verwendung des Polynukleotids oder dessen Fragments oder Derivats nach einem der 
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AnsprOche 1 bis 5 zur Herstellung eines Arzneimittels oder Irapfstoffs fiir die Behandlung 
Oder Prevention von HIV-Infektionen. 

10. Polypeptid, kodiert von der Nukleotidsequenz oder Fragment oder Derivat der 
5 Nukleotidsequenz gemafl SEQ ID NO: 1 , 2 oder 3. 

11. Polypeptid nach Anspruch 10, umfassend eine kontinuierliche Sequenz von von 
mindestens 8 Aminosauren, die von der Nukleotidsequenz oder Fragmenten oder 
Derivaten der Nukleotidsequenz gemaB SEQ ID N0:1, 2 oder 3 kodiert werden. 

10 

12. Polypeptid nach Anspruch 10 oder 11, wobei die AminosSuresequenz dem HIV- 
HuUprotein oder einem Fragment des fflV-Hiillproteins entspricht. 

13. Polypeptid nach einem der Anspriiche 10 bisl2, femer umfassend eine antigene 
15 Determinante, die naturlicherweise in Infizierten eine Immunreaktion auslost. 

14. Polypeptid nach Anspruch 13, wobei die antigene Determinante ein Konformations- 
Epitop oder ein Hneares Epitop ist. 

20 15. Das Polypeptid nach einem der Anspriiche 10 bis 14 als als Arzneimittel, ImpfstofF oder 
Diagnostikum. 

16 Verwendung des des Polypeptids nach einem der Anspriiche 10 bis 14 zur Herstellung 
eines Arzneimittels oder ImpfstofFs fur die Behandlung oder Prevention von HIV- 
25 Infektionen. 

17. Isoliertes Polypeptid spezifisch gegen ein Polypeptid nach einem der Anspriiche 10 bis 
14. 

30 18, IsoHertes Polypeptid nach Anspruch 1 7 als Arzneimittel oder Diagnostikum. 



19. 



Verwendung des isolierten Polypeptids nach Anspruch 17 zur Herstellung eines 
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Arzneimittels fUr die Behandlung oder Prevention von HlV-Infektionen. 

Isoliertes Polypeptid nach Anspruch 17 oder 18 oder die Verwendung des isolierten 
Polypeptids nach Anspruch 19, wobei das isolierte Polypeptid ein Antikdrper ist. 
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Fig. 8/a 

AATCTCTAGCAGTC3GCGCCCGAACAGGGACTTGAAAGCGAAAGTAAGACCAGAGGAGATC 

^ + + + + + + 60 

TTAGAGATCGTCACCGCGGGCTTGTCCCrGAACTTTCGCITTCATTC^ 
a NL*QWRPNRDLKAKVRPEEI 
b ISSSGARTGT*KRK*DQRRS- 
C SLAVAPEQGLESESKTRGDL- 



TCTCGACGCAGGACrOKjCTTGCTGAAGTGCACTCGGaWVGAGGCGAGAGCX^ 

^ + + + + + 

AGAGCTGCGTCCTGAGCCGAACGACTTCACGTGAGCCGTTCTCCGCTCTCGCCGCTGACC 



a SRRRTRLAEVHSARGESGDW 
b LDAGLGLLKCTRQEARAATG- 
C STQDSAC*SALGKRRERRLV- 



TGAGTACGCCAATTATATTTGACTAGCGGAGGCTAGAAGGAGAGAGATGGGTGCGAGAGC 

^ ^ + + + + 

ACrrCATGCGGTrAATATAAACrGATCGCCrCCGATCTTCCTCTCTCTACCCACGCTCTCG 



a *VRQLYLTSGG*KERDGCES 
b EYANYI*LAEARRREMGARA- 
c STPIIFD*RRI.EGERWVRER- 



GTCAATATTAAGAGGGGGAAAATTAGATAAATGGGAAAAAATTAGGTTAAGGCCAGGGGG 

^ ^ + + + + 

CAGTTATAATTCTCCCCCTTTTAATCTATTTACCCTTTTTTAATCCAATTCCGGTCCCC^ 



a VNIKRGKIR*MGKN*VKARG 
b SILRGGKLDKWEKIRLRPGG- 
c QY*EGEN*INGKKLG*GOGE- 

AAAGAAACACTATATGCTAAAACACCTAGTATGGGCAAGCAGGGAGCTGGAAAGATTTGC 

241 + + + * + 300 

TTTCTTTGTGATATACGATTTTGTGGATCATACCCGTTCGTCCCTCGACCTTTCTAAACG 
a KETLYAKT PSMGKQGAGKIC 

b KKHYMLKHLVWASRELERFA- 
c RNTIC*NT*YGQAGSWKDLH- 



ACTTAACCCTGGCCTTTTAGAGACATCAGAAGGCTGTAAACAAATAATGAAACAGCTACA 

+ + - + - + + 

TGAATTGGGACCGGAAAATCTCTGTAGTCTTCCGACATTTGTTTATTACTTTGTCGATGT 



a T*PWPFRDIRRL*TNNETAT 
b LNPGLLETSEGCKQIMKQLQ- 
C LTLAF*RHQKAVNK**NSYN- 



ATCAGCTCTTCAGACAGGAACAGAGGAACTTAGATCATTATTCAACACAGTAGCAACTCC 

^ ^ + + + 

TAGTCGAGAAGTCTGTCCTTGTCTCCTTGAATCTAGTAATAAGTTGTGTCATCGTTGAGG 



a ISSSDRNRGT*IIIQHSSNS 
b SALQTGTEELRSLFNTVATP- 
c QLFRQEQRNLDHYSTQ*QLP- 

CTATTGTGTACATACAGAGATAGATGTACGAGACACCAGAGAAGCCTTAGACAAGATAGA 

421 + * * > ^ "'^ ^80 

GATAACACATGTATGTCTCTATCTACATGCTCTGTGGTCTCrrCGGAATCTGTTCTATCT 
a LLCTYRDRCTRHQRSLRQDR 
b YCVHTEIDVRDTREA LDKIE- 

c iVYIQR*MYETPEKP*TR*R- 



GGAAGAACAAAACAAAATTCAGOU^AAAACACAGCAGGCAAAGGAGGCT^ 

+ + + - + * + 

CCTTCTTGTTTTGTTTTAAGTCGTTTTTTGTGTCGTCCGTTTCCTCCGACn'GCCCTTCCA 



a GRTKQNSAKNTAGKGG*REG 
b EEQNKIQQKTQQAKEADGKV- 
C KNKTKFSKKHSRQRRLTGRS- 
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Fig. 8/b 



CAGTCAAAATTATCCTATAGTACAGAATCTCCAAGGGCAAATGGTACATCAGCCCATATC 

541 + + + + + + €00 

GTCAGTTTTAATAGGATATCyVTGTCTTAGAGGTTCCCGTTTACCATGTAGTCGGGTATAG 
a QSKLSYSTESPRANGTSAHI 
b SQNYPIVQNLQGQMVHQPIS- 
c VKriL*YRISKGKWYISPYH- 

ACCTAGAACTTTAAATGCATGGGTAAAAGTGGTAGAAGAGAAGGCTTTTAGCCCAGAAGT 

eol --+ + + + + + 

TCGATCTTGAAATTTACGTACCCATTTTCACCATCTTCTCTTCCGAAAATCGGGTCTTCA 

a T*NFKC. MGKSGRREGF*PRS 

b PRTLNAWVKVVEEKAFSPEV- 

C LEL*MHG*KW* KRRLLAQK*- 

AATACCCATGTTTTCAGCGTTATCAGAAGGAGCCACCCCACAAGATTTAAACACCATGCT 
ggl + + + + -'i- -+ 720 

TTATGGGTACAAAAGTCGCAATAGTCTTCCTCGGTGGGGTGTTCTAAATTTGTGGTACGA 
a NTHVFSVIRRSHPTRFKHHA 
b IPMFSALSEGATPQDLNTML- 
C YPCFQRYQKEPPHKI*TPC*- 

AAACACAGTGGGGGGACATCAAGCAGCTATGCAAATATTAAAAGATACCATCAATGAAGA 

721 + + - ^ + + - + 780 

TTTGTGTCACCCCCCTGTAGTTCGTCGATACGTrTATAATTTTCTATGGTAGTTACTTCT 
a KHSGGTSSSYANIKRYHQ*R 
b NTVGGHQAAMQILKDTINEE- 
c TQWGDIKQLCKY*KIPSMKR- 

GGCTGCAGAATGGGATAGATTACATCCAGTACATGCAGGGCCTATTGCACCAGGCCAAAT 

781 + - + + + + + 840 

CCGACGTCTTACCCTATCTAATGTAGGTCATGTACGTCCCGGATAACGTGGTCCGGTTTA 
a GCRMG*ITSSTCRAyCTRPN 
b AAEWDRLHPVHAGPIAPGQM- 
c LQNGIDYIQYMQGLLHQAK*- 

GAGAGAACCAAGGGGAAGTGACATAGCAGGAACTACTAGTAACCTACAGGAACAAATAGC 

841 + + + + + + 

CTCTCTTGGTTCCCCTTCACTGTATCGTCCTTGATGATCATTGGATGTCCTTGTTTATCG 
a ERTKGK*HSRNY**PTGTNS 
b REPRGSDIAGTTSNLQEQIA- 
c ENQGEVT*QELLVTYRNK*H- 

ATGGATGACGAGTAACCCACCTGTTCCAGTAGGAGACATCTATAAAAGATGGATAATTCT 

901 -- + + --- + + + + 9^0 

TACCTACTGCTCATTGGGTGGACAAGGTCATCCTCTGTAGATATTTTCTACCTATTAAGA 
a MDDE*PTCSSRRHL*KMDNS 
b WMTSMPPVPVGDIYKRWIIL- 
c G*RVTHLFQ*ETSIKDG*FW- 



GGGATTAAATAAAATAGTAAGAATGTATAGCCCTACCAGCATTCTGGACATAAAACAAGG 

+ + + + + - + 

CCCTAATTTATTTTATCATTCTTACATATCGGGATGGTCGTAAGACCTGTATTTTGTTCC 



a GIK*NSKNV*PYQHSGHKTR 
b GLNKIVRMYSPTSILDIKOG- 
C D*IK**ECIALPAFWT*NKG- 

GCCAAAGGAACCCTTTAGAGACTATGTAGACCGGTTCTTTAAAACTT^ 
1021 * + ^- + + * 1080 

CGGTTTCCTTGGGAAATCTCTGATACATCTGGCCAAGAAATTTTGAAATTCrC^ 
a AKGTL*RLCRPVL*NFKSGT 
b PKEPFRDYVDRFFKTLRAEQ- 
C QRNPLETM*TGSLKL*ERNK- 

AGCTACGCAAGGTGTAAAAAATTGGATGACAGACACCTTGTTGGTCCAAAATGCGAACCC 

1081 + + + + + + 1140 

TCGATGCGTTCCACATTITTTAACCTACTGTCraTGGAACAACCAGGTTTTAC^^ 
a SYARCKKLDDRHLVGPKCEP 
b ATQGVKNWMTDTLLVQNANP- 
C LRKV*KIG*QTPCWSKMRTQ- 
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Fig. 8/c 



AGATTGTAAGACCATTTTAAGAGOlTTAGGACCAGGGGCTrCAATAGAAGAAATGATGAC 

1141 + + + + + + 1200 

TCTAACATTCTGGTAAAATTCTCGTAATCCTGGTCCCCGAAGTTATCTTCTTTACTACTG 
a RL*DHFKSIRTRGFNRRNDD 
b DCKTILRA LGPGASIEEMMT- 

c IVRPF*EH*DQGL0*KK**Q- 

AGCATGTCAGGGAGTGGGAGGACCTAGCCATAAAGCAAAAGTGTTGGCCGAGGCAATGAG 

1201 + ^ + + " + * 1260 

TCGTACAGTCCCrCACCCTCCTGGATCGGTATTTCX5TTTTCACAACCGGCrCCGTTACTC 
a SMSGSGRT*P*SKSVGRGNE 
b ACQGVGGPSHKAKVLAEAMS- 
C HVREWEDLAIKQKCWPRQ*A- 



CCAAACAAACAGTGCCATACTGATGCAGAGAAGCAATTTTAAAGGCTCTAAAAGAATTGT 

^ ^ ^ + + + 

GGTTTGTTTGTa^CGGTATGACTACGTCTCTTCGTTAAAATTTCCGAGATTTTC^ 



a PNKQCHTDAEKQF*RL*KNC 
b QTNSAILMQRSNFKGSKRIV- 
C KQTVPY*CREAILKALKELL- 
TAAATGTTTCAACTGTGGCAAGGAAGGGCACATAGCCAGAAATTGCAGGGCCCCTAGGAA 

1321 + * * + + * "80 

ATTTACAAAGTTGACACCGTTCCTTCCCGTGTATCGGTCTTTAACGTCCCGGGGATCC^ 
a *MFQLWQGRAHSQKLQGP*E 
b KCFNCGKEGHIARMCRAPRK- 
C NVSTVARKGT*PEXAGPLGK- 

AAAGGGCTGTTGGAAATGTGGAAAAGAAGGACACCAAATGAAAGATTGTACTGAGAGACA 

1381 + + + + + + 

TTTCCCGACAACCTTTACACCTTTTCnTCCTGTGGTTTACTTTCTAACATGACTCTCTGT 

a KGLLEMWKRRTPNERLY*ET 

b KGCWKCGKEGHQMKDCTERQ- 

C RAVGNVEKKDTK*KIVLRDR- 

GGCCAATTTTTTAGGGAAAATCTGGCCCTCCCACAAGGGAGGGCCAGGGAATTTTCTTCA 

1441 - + + + + + + 1500 

CCGGTTAAAAAATCCCTTTTAGACCGGGAGGGTGTTCCCTCCCGGTCCCTTAAAAGAAGT 
a GQFFRENLALPQGRAREFSS 
b ANFLGKIWPSHKGGPGNFLQ- 
C piF*GKSGPPTREGQGIFFR- 



GAACAGACCAGAGCCAACAGCCCCACCAGAGGAGAGCTTCAGGTTTGgGGAAGAGACAAC 

^ ^ + + + + 

CTTGTCTGGTCTCGGTTGTCGGGGTGGTCTCCTCTCGAAGTCCAAACCCCTTCTCTGTTG 



a EQTRANSPTRGELQVWGRDN 
b NRPEPTAPPEESFRFGEETT- 
c TDQSQQPHQRRASGLGKRQQ- 



AACTCCATCTCAGAAGCAGGAGCCAATAGACAAGGAACTATATCCTTTAACTTCCCTCAA 

^ ^ 4. + + + 

TTGAGGTAGAGTCTTCGTCCTCGGTTATCTGTTCCTTGATATAGGAAATTGAAGGGAGTT 



a NSISEAGANRQGTISFNFPQ 
b TPSQKQEPIDKELYPLTSLK- 
c LHtiRSRSQ*TRNYIL*LPSN- 



ATCACTCTTTGGCAACGACCCCTCGTCACAATAAAGATAGGGGGGCAATTAAAGGAAGCT 

+ + + + * + 

TAGTGAGAAACaSTTGCTGGGQAGCAGTGTTATTTCTATCCCCCCGTTAATTTCCTTCGA 



a iTLWQRPLVTIKIGGQLKEA 
b SLFGNDPSSQ*R*GGN*RKL- 
C HSLATTPRHNKDRGAIKGSS- 



CTATTAGATACAGGAGCAGGTGATACAGTATTAGAAGACCTGAATTTGCCAGGGAAATGG 

^ ^ + + + + 

GATAATCTATGTCCrCGTCCACTATGTCATAATCTTCTGGACTTAAACGGTCCCTTTACC 



a LLDTGAGDTVLEDLNLPGKW 
b Y*IQEQVIQY*KT*ICQGNG- 
C IRYRSR*YSIRRPEFAREME- 
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Fig. 8/d 



AAACCAAAAATGATAGGGGGAATTGGAGGTTTTATCAAAGTAAGACAGTATGAACAGATA 

1741 + + + + + + 1800 

TTTGGTTTTTACTATCCCCCTTAACCTCCAAAATAGTTTCATTCTGTCATACTTGTCTAT 

a KPKMIGGIGGFIKVRQYEQI 

b NQK**GELEVLSK*DSMNRY- 

C TKNDRGNWRFYQSKTV*TDT- 

CCCATAGAAATTTGCGGACACAAAGCTATAGGTACAGTATTAGTAGGACCTACACCTGTC 

1801 + + + + + * I860 

GGGTATCTTTAAACGCCTGTGTTTCGATATCCATGTCATAATCATCCTGGATGTGGACAG 

a piEICGHKAIGTVLVGPTPV 

b P*KFADTKL*VQY**DLHLS- 

c HRNLRTQSYRYSISRTYTCQ- 

AACATAATTGGAAGAAATCTGTTGACTCAGCITGGTTGCACTTTAAATTTTCCAATCAGT 

1861 * + * + * 1520 

TTGTATTAACCTTCTTTAGACAACTGAGTCGAACCAACGTGAAATTTAAAAGGTTAGTCA 
a NIIGRNLLTQLGCTLNFPIS 
b T*LEEIC*LSLVAL*IFQSV- 
c HNWKKSVDSAWLHFKFSNQS- 

CCCATTGAAACTGTACCAGTAAAATTAAAGCCAGGAATGGATGGCCCAAAGGTTAAACAA 

1921 + + + + + * 1380 

GGGTAACTTTGACATCGTCATTTTAATTTCGGTCCTTACCTACCGGGTTTCCAATTTGTT 

a piETVPVKLKPGMDGPKVKQ 

b PLKLYQ*N*SQEWMAQRLNN- 

C H*NCTSKIKARNGWPKG*TM- 

TGGCCATTGACAGAAGAGAAAATAAAAGCATTAACAGCAATTTGTGATGAAATGGAGAAA 

1981 + --- + --- + + + + 2040 

ACCGGTAACTGTCTTCTCTTTTATTTTCGTAATTGTCGTTAAACACTACTTTACCTCTTT 
a WPLTEEKIKALTAICDEMEK 
b GH*QKRK *KH*QQFVMKWRK- 

C AIDRRENKSINSNL**NGER- 

GAAGGAAAAATTACAAAAATTGGGCCTGAAAATCCATATAACACTCCAATATTTGCCATA 

2041 ^ - + * + ^ * 2100 

CTTCCTTTTTAATGTTTTTAACCCGGACTTTTAGGTATATTGTGAGGTTATAAACGGTAT 
a EGKITKIGPENPYNTPIFAI 
b KEKLQKLGLKIHITLQYLP*- 
C RKNYKNWA*KSI*HSNICHK- 

AAAAAGAAGGACAGTACTAAGTGGAGAAAGTTAGTAGATTTCAGGGAACTCAATAAAAGA 

2101 + - - + + * + + 2160 

TTTTTCTTCCTGTCATGATTCACCTCTTTCAATCATCTAAAGTCCCTTGAGTTATTTTCT 
a KKKDSTKWRKLVDFRELNKR 
b KRRTVLSGES**ISGNSIKE- 
c KEGQY*VEKVSRFQGTQ*KN- 

ACTCAAGATTTTTGGGAAGTTCAATTAGGAATACCACACCCAGCAGGGTTAAAAAAGAAA 

2161 + - + + - + + 2220 

TGAGTTCTAAAAACCCTTCAAGTTAATCCTTATGGTGTGGGTCGTCCCAATTTTTTCTTT 
a TQDFWEVQLGIPHPAGLKKK 
b LKIFGKFN*EYHTQQG*KRK- 
c SRFLGSSIRNTTPSRVKKEK- 



AAATCAGTGACAGTACTGGATGTGGGGGATGCATATTTTTCAATTCCTTTATATGAAGAC 

^ + + + + + 

TTTAGTCACTGTCATGACCTACACCCCCTACGTATAAAAAGTTAAGGAAATATACrrCTG 



a KSVTVLDVGDAYFSIPL.YED 
b NQ*QYWMWGMHIFQFl.YMKT- 
C ISDSTGCGGCIFFNSFI*RL- 

TTCAGGAAGTATACTGCATTCACCATACCTAGTAGAAACAATGAAACACCAGGGATTAGG 

2281 + + + + " + - + 2340 

AAGTCCTTCATATGACXiTAAGTGGTATGGATCATCTTTGTTACTTTGTXKJTCCCT 
a FRKYTAFTIPSRNNETPGIR 
b SGSILHSPYLVETMKHQGLG- 
c QEVYCIHHT**KQ*NTRD*V- 
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Fig. 8/e 



TATCAGTACAATGTACTTCCACAGGGATGGAAAGGATCACTAGCAATATTCCAAAGTAGC 

2341 * + + + * + 2400 

ATAGTCATGTTACATGAAGGTGTCCCTACCTTTCCTAGTGATCGTTATAAGGTTTCATCX; 
a YQYNVLPQGWKGSLAIPQSS 
b ISTMYFHRDGKDH*QYSKVA- 
C SVQCTSTGMERITSNIPK*H- 

ATGACAAAAACCTTAGAGCCTTTTAGAAAACAAAATCCAGGCATAGTTATCTATCAATAC 

2401 + + + + + + 2460 

TACTGTTTTTGGAATCTaSGAAAATCTTTTGTTTTAGGTCOTTATCAATAG^ 
a MTKTLEPFRKQNP GIVIYQY 

b •QKP*SLLENKIQA*LSINT- 
c DKNLRAF*KTKSRHSYLSIH- 



ATGGATGATTTGTATGTAGGATCTGACTTAGAGATAGGGCAGCATAGAACAAAAATAGAG 

+ + + + + + 

TACCTACTAAAO^TACATCCTAGACTGAATCTCTATCCCGTCGTATCTTGTTTTTATCTC 



a MDDLYVGSDLEIGQHRTKIE 
b WMICM*DLT*R*GSIEQK*R- 
C G*FVCRI*LRDRAA*NKNRG- 

GAACTGAGACAACATTTGTTGAGGTGGGGATTTACCACACCAGACAAGAAACATTAGA^ 

2521 + + + + + ----^ 2580 

CTTGACTCTGTTGTAAACAACTCCACCCCTAAATGGTGTGGTCTGTTCTTTGTAATCTTT 
a ELRQHLLRWGFTTPDKKH*K 
b N*DNIC*GGDLPHQTRNIRK- 
c TETTFVEVGIYHTRQETLER- 

GAACCTCCATTTCTTTGGATGGGGTATGAACTCCATCCTGACAAATGGACAGTACAGCCT 

2581 + + + + * 2640 

CTTGGAGGTAAAGAAACCTACCCCATACTTGAGGTAGGACTGTTTACCTGTCATGTCGGA 
a EPPFLWMGYELHPDKWTVQP 
b NLHFFGWGMNSILTNGQYSL- 
c TSISLDGV*TPS*OMDSTAY- 
ACACAGCTGCCAGAAAAAGATAGCTGGACTGTCAATGATATACAAAAGTTAGTGGGAAAA 

2641 + + - + + + + 2700 

TGTGTCGACGGTCTTTTTCTATCGACCTGACAGTTACTATATGTTTTCAATCACCCTTTT 
a TQLPEKDSWTVNDIQKLVGK 
b HSCQKKIAGLSMIYKS*WEN- 
C TAARKR*LDCQ*YTKVSGKI- 

TTAAACTGGGCAAGTCAGATTTATCCTGGAATTAAAGTAAGGCAACTTTGTAAACTCCTT 

2701 --- + + + - + + + 2760 

AATTTGACCCGTTCAGTCTAAATAGGACCTTAATTTCATTCCGTTGAAACATTTGAGGAA 
a LNWASQIYPGIKVRQLCKLL 
b *TGQVRFILELK*GNFVNSL- 
C KLGKSDLSWN*SKATL*TP*- 

AGGGGGGCCAAAGCACTAACAGACATAGTACCACTAACTGAAGAAGCAGAATTAGAATTG 

2761 + + + + + * 2820 

TCCCCCCGGTTTCGTGATTGTCTGTATCATGGTGATTGACTTCTTCGTCTTAATCTTAAC 
a RGAKALTDIVPLTEEAELEL 
b GGPKH*QT*YH*LKKQN*NW- 
C GGQSTNRHSTTN*RSRIRIG- 

GCAGAAAACAGGGAAATTCTAAAAGAACCAGTACATGGAGTATACTATGACCCATCAAAA 

2821 + + + + + 2880 

CGTCTTTTGTCCCTTTAAGATTTTCnTGGTCATGTACCTCATATGATACT 
a AENREILKEPVHGVYYDPSK 
b QKTGKF*KNQYMEYTMTHOK- 
C RKQGNSKRTSTWSIL*PIKR- 

GACITGATAGCTGAAATACAGAAACAGGGGCAGGAACAATGGACATATCAAATTTACCAA 

2881 + " + + * 2940 

CTGAACTATCGACTTTATGTCTTTGTCCCCGTCCTTGTTACCTGTATAGTTTAAATGGTT 
a DLIAEIQKQGQEQWT. YQIYO 

b T**LKYRNRGRNNGHIKFTK- 
C LDS*NTETGAGTMDISNLPR- 
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Fig. 8/f 



GAACCATTCAAAAATCTAAAAACAGGGAAGTATGCAAAAATGAGGACTGCCCACACTAAT 
2941 + + + + + + 3000 

CTTGGTAAGTTTTTAGATTTTTGTCCCTTCATACXSTTTTTACrCCTGACGGGTGTGATTA 
a EPFKNLKTGKYAKMRTAHTM - 

b NHSKI*KQGSMQK*GLPTLM- 
C TIQKSKNREVCKNEDCPH**- 

GATGTAAAACAATTAACAGAGGCTGTGCAGAAAATAGCCATGGAAGGCATAGTAATATGG 
3001 + + + - + + + 3060 

CTACATTTTGTTAATTGTCTCCGACACGTCTTTTATCGGTACCTTCCGTATCATTATACC 
a DVKQLTEAVQKIAMEGIVIW 
b M*NN*ORLCRK*PWKA**YG- 
c CKTINRGCAENSHGRHSNMG- 

GGAAAAACTCCTAAATTTAGATTACCCATCCAAAAAGAAACATGGGAGACATGGTGGACA 
3061 + + + + + + 3120 

CCTTTriXSAGGATTTAAATCTAATGGGTAGGTT i n'l'Cl T l H STACCCTCTGTACCACCTGT 
a GKTPKFRLPIQKETWETWWT 
b EKLLNLDYPSKKKHGRHGGQ- 
C KNS*I*ITHPKRNMGDMVDR- 

GACTATTGGCAAGCCACCTGGATTCCTGAGTGGGAATTTGTTAATACCCCTCCCTTAGTA 
3121 -- + + + + + + 3180 

CTGATAACCGTTCGGTGGACCTAAGGACrCACCCTTAAACAATTATGGGGAGGGAATCAT 
a DYWQATWIPEWEFVNTPPLV 
b TIGKPPGFLSGNLLIPLP**- 
c LLASHLDS*VGIC*YPSLSK- 

AAATTATGGTACCAGCTGGAAAAAGATCCCATAGTAGGAGTAGAAACTTTCTATGTAGAT 
3181 + + + + + 3240 

TTTAATACCATGGTCX5ACCTTTTTCTAGGGTATCATCCTCATCTTTGAAAGATACATCTA 
a KLWYQLEKDPIVGVETFYVD 
b NYGTSWKKIP**E*KLSM*M- 
c IMVPAGKRSHSRSRNFLCRW- 

GGAGCAGCTAATAGGGAGACTAAAATAGGAAAAGCAGGGTATGTTACTGACAGAGGAAGG 
3241 + + + + + + 3300 

CCTCGTCGATTATCCCTCTGATTTTATCCTTTTCGTCCCATACAATGACTGTCTCCTTCC 
a GAANRETKIGKAGYVTDRGR 
b EQLrGRLK*EKQGMLLTEEG- 
C SS**GD*NRKSRVCY*QRKE- 

AAGAAAATTGTTTCTCTAACTGAAACAACAAATCAGAAGACTGAATTGCAAGCAATTTGT 
3301 + + + + - --- + + 3360 

TTCTTTTAACAAAGAGATTGACTTTGTTGTTTAGTCTTCTGACTTAACGTTCGTTAAACA 
a KKIVSLTETTNQKTELQAIC 
b RKLFL*LKQQIRRLNCKQFV- 
c ENCFSN*NNKSED*IASNLY- 

ATAGCTTTGCAAGATTCAGGATCAGAAGTAAACATAGTAACAGATTCACAGTATGCATTA 
3361 - + + + + + ^. 3420 

TATCGAAACGTTCTAAGTCCTAGTCTTCATTTGTATCATTGTCTAAGTGTCATACGTAAT 
a lALQDSGSBVNIVTDSQYAL 
b ♦LCKIQDQK*T**QrHSMH*- 
c SFARFRIRSKHSNRFTVCIR- 

GGGATCATTCAAGCACAACCAGATAAGAGTGAATCAGAGTTAGTTAACCAAATAATAGAA 
3421 + - + + + + + 3480 

CCCTAGTAAGTTCGTGTTGGTCTATTCrCACTTAGTCTCAATCAATTGGTTTATTATCTT 
a GIIQAQPDKSESELVNQIIE 
b GSFKHNQIRVNQS*LTK**N- 
c DHSSTTR*E*IRVS*PNNRT- 

CAATTAATGAAAAAGGAAAGAGTCTACCTGTCATGGGTACCAGCACATAAAGGAATTGGA 
3481 -- + + + + + + 3540 

GTTAATTACrrrTTTCCTTTCTCAGATGGACAGTACCCATGGTCGTGTATTTCC^ 
a QliMKKBRVYLSWVPAHKGIG 
b N**KRKESTCHGYQHIKELE- 
c INEKGKSLPVMGTST*RNWR- 
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Fig. 8/g 



GGAAATGAACAAGTAGATAAATTAGTAAGTAGTGGAATCAGGAAAGTGCTATTTCTAGAT 
3541 + + + + + + 3600 

CCTTTACTTGTTCATCTATTTAATCATTCATCACCTTAGTCCTTTCACGATAAAGATCTA 
a GNEQVDKLVSSGIRKVLFLD 
b EMNK*IM**VVESGKCYF*M- 
C K*TSR*ISK*WNQESAISRW- 

GGAATAGATAAAGCTCAAGAAGAGCATGAAAAGTATCACAGCAATTGGAGAGCAATGGCT 
3601 + + + + + + 3660 

CCTTATCTATTTCGAGTTCTTCTCGTACTTTTCATAGTGTCGTTAACCTCTCGTTACC^ 
a GIDKAQEEHEKYHSNWRAMA 
b E*IKLKKSMKSITAIGEQWL- 
C NR*SSRRA*KySQOLESNG*- 

AGTGACTTTAATCTGCCACCCATAGTAGCAAAAGAAATAGTGGCTAGCTGTGATCAATGT 
3661 + + + + + + 3720 

TCACTGAAATTAGACGGTGGGTATCATCGTTTTCTTTATCACCXy^TCGACACTAGTTACA 
a SDFNLPPIVAKEIVASCDQC 
b VTLICHP**QKK*WLAVINV- 
C *L*SATHSSKRNSG*L*SMS- 

CAGCTA/^GGAGAAGCCATGCATGGACyuVGTAGACTGTAGTCCAGGGATATGGCAATTA 
3721 -- + + + + + + 3780 

GTCGATTTTCCTCTTCGGTACGTACCTGTTCATCTGACATCAGGTCCCTATACCGTTAAT 
a OLKGEAMHGQVDCSPGIWQL 
b S*KEKPCMDK*TVVQGyGN*- 
C AKRRSHAWTSRL*SRDMAIR- 

GATTGTACACATTTAGAAGGAAAAATCATCCTGGTAGCAGTCCATGTAGCCAGTGGCTAC 
3781 + + + + + + 3840 

CTAACATGTGTAAATCTTCCTTTTTAGTAGGACCATCGTCAGGTACATCGGTCACCGATG 
a DCTHLEGKIILVAVHVASGY 
b IVHI*KEKSSW*QSM*PVAT- 
C LYTFRRKNHPGSSPCSQWLH- 

ATGGAAGCAGAGGTTATCCCAGCAGAAACAGGACAAGAGACAGCATACTTTATACTAAAA 
3841 + - + + + + + 3900 

TACCTTCGTCTCCAATAGGGTCGTCTTTGTCCTGTTCTCTGTCGTATGAAATATGATTTT 
a MEAEVIPAETGQETAYFILK 
b WKQRLSQQKQDKROHTLY* N- 

c GSRGYPSRNRTRDSILYTKI- 

TTAGCAGGAAGATGGCCAGTCAAAGTAATACATACAGATAATGGTAGTAATTTCACCAGT 
3901 + + + + + + 3960 

AATCGTCCTTCTACCGGTCAGTTTCATTATGTATGTCTATTACCATCATTAAAGTGGTCA 
a LAGRWPVKVIHTDNGSNFTS 
b *QEDGQSK*YIQIMVVISPV- 
c SRKMASQSNTYR*W**FHQY- 

ACTGCAGTTAAGGCAGCCTGTTGGTGGGCAGGTATCCAACAGGAATTTGGAATTCCCTAC 

3961 + + + + + + 4020 

TGACGTCAATTCCGTCGGACAACCACCCGTCCATAGGTTGTCCTTAAACCTTAAGGGATG 
a TAVKAACWWAGIQQEFGIPy 
b LQLRQPVGGQVSNRNLEFPT- 
c CS*GSLLVGRYPTGIWNSLQ- 

AGTCCCCAAAGTCAGGGAGTAGTAGAAGCCATGAATAAAGAATTAAAGAAAATTATAGGG 

4021 + + + + + + 4080 

TOVGGGGTTTCAGTCCCTCATCATCTTCGGTACTTATTTCnTAATTTCTTTTAATATCC^ 
a SPQSQGVVEAMNKELKKIIG 
b VPKVRE**KP*IKN*RKL*G- 
C SPKSGSSRSHE*RIKENYRA- 

CAGGTAAGAGATCAAGCTGAGCACCTTAAGACAGCAGTACTAATGGCAGTATTCATTCAC 
4081 + -- + + + -- + + 4140 

GTCCATTCTCTAGTTCGACTCGTGGAATTCTGTCGTCATGATTACCGTCATAAGTAAGTG 
a QVRDQAEHLKTAVLMAVFIH 
b R*EIKLSTLRQQY*WQYSFT- 
C GKRSS*AP*DSSTNGSIHSQ- 
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Fig. 8/h 

AATTTTAAAAGAAAACKKKKSGATTGGGGGGTACAGTGCAGGGGAAAGAATAATAGATATA 
4141 + + - + + + + 4200 

TTAAAATTrTCTTTTCCCCCCTAACCCCCOVTGTCACGTCCCCrrrCTTATTATCTATAT 
a MFKRKGGIGGYSAGERIIDI 
b ILKEKGGLGGTVQGKE**!*- 
c F*KKRGDWGVQCRGKNNRYN- 

ATAGCMCAGACATAO^CTAAAGAATTACAAAAACAGATTACAAAAATTCAAAATT^ 
4201 + + + + + + 4260 

TATCGTTGTCTGTATGTTTGATTTCTTAATGTTTTTGTCTAATG'rTTTTAAG'rTTTA 
a lATDIQTKELQKQITKIQNF 
b *QQTYKLKNYKNRLQKFKIF- 
c SNRHTN*RITKTDYKNSKFS- 

CGGGTTTATTACAGAGACAGCAGAGACCCCAGTTGGAAAGGACCAGCCAAACTACTCTGG 
4261 - + + + + + + 4320 

GCCCAAATAATGTCTCTGTCGTCTCTGGGGTCAACCTTTCCTGGTCGGTTTGATGAGACC 
a RVYYRDSRDPSWKGPAKLLW 
b GFITETAETPVGKDQPNYSG- 
C GLLQRQQRPQLERTSQTTLE- 

AAAGGTGAAGGGGCAGTAATAATACAAGATAATAGTGACATAAAGGTAGTACCAAGGAGG 
4321 + + + + + + 4380 

TTTCCACTTCCCCGTCATTATTATGTTCTATTATCACTGTATTTCCATCATGGTTCCTCC 
a KGEGAVIIQDNSDIKVVPRR 
b KVKGQ**YKIIVT*R*YQGG- 
C R*RGSNNTR***HKGSTKEE- 

AAAGCAAAAATCATTAAGGACTATGGAAAACAGATGGCAGGTGCTGATTGTGTGGCAGGT 
4381 + + + + + + 4440 

TTTCGTTTTTAGTAATTCCTGATACCTTTTGTCTACCGTCCACGACTAACACACCGTCCA 
a KAKIIKDYGKQMAGADCVAG 
b KQKSLRTMENRWQVLIVWQV- 
c SKNH*GLWKTDGRC*LCGR*- 

AGACAGGATGAAGATTAGAACATGGAATAGTTTAGTAAAACACCATATGTATGTTTCAAG 
4441 + + + + + + 4500 

TCTGTCCTACTTCTAATCTTGTACCTTATCAAATCATTTTGTGGTATACATACAAAGTTC 
a RQDED*NME*FSKTPYVCFK 
b DRMKIRTWNSIiVKHHMYVSR- 
C TG*RLEHGIV**NTICMFQG- 

GAGAGCTAATGGATGGTTTTACAGACATCATTATGACAGCAGACATCCAAAAGTAAGTTC 
4501 --- + + + + + + 4560 

CTCTCGATTACCTACCAAAATGTCTGTAGTAATACTGTCGTCTGTAGGTTTTCATTCAAG 
a ES*WMVLQTSL*QQTSKSKF 
b RANGWFYRHHYDSRHPKVSS- 
C ELMDGFTDIIMTADIQK*VQ- 

AGAAGTACACATCCa^TTAGGAAAGGCTAAATTAGTAATAAAAACATATTGGGGGTTGCA 
4561 + --- + + + + + 4620 

TCn^CATGTGTAGGGTAATCCTTTCCGATTTAATCATTATTTTTGTATAACCCCCAACGT 
a RSTHPIRKG*ISNKNILGVA 
b EVHIPLGKAKLVIKTYWGLQ- 
C KYTSH*ERLN***KHIGGCR- 

GACAGGAGAAAGAGATCGGCATTTGGGTCATGGAGTCTCCATAGAATGGAGATTGAGAAG 
4621 + + + + + + 4680 

CTGTCCTCrTTCTCTAGCaSTAAACCCAGTACCTCAGAGGTATCTTACCTCTAACrcrTC 
a DRRKRSAFGSWSLHRMEIEK 
b TGERDRHLGHGVSIEWRLRR- 
C QEKEIGIWVMESP*NGD*ED- 

ATATACCACACAAATAGAACCTGGCCTGGCAGACCAGCTAATTCyVTTTGTATTATTTTGA 

4681 + + + + + ---+ 4740 

TATATGGTGTGTTTATCTTGGACCGGACOjrCTGGTCGATTAAGTAAACATAATAAAACT 
a lYHTNRTWPGRPANSFVLF* 
b YTTQIEPGLADQLIHLYYPD- 
C IPHK*NLAWQTS*FICIILI- 
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Fig. 8/i 

TTGTTTTGCACSACrCTGATATAAGGAAAGCCATATTAGGACACATAGTTATTCCrrW 
4741 + + + + + + 4800 

AACAAAACGTCTGAGACTATATTCCTTTCGGTATAATCCTGTGTATCAATAAGGATCCAC 
a LFCRL*YKESHIRTHSYS*V 
b CFADSDIRKAIIiGHIVIPRC- 
C VLQTLI*GKPY*DT*LFLGV- 

TGACTATCAAGCAGGACATAATAATAAGGTAGGATCTCTACAATACTTGGCACTGACAGC 
4801 + + + + + + 4860 

ACnSATAGTTCGTCCTGTATTATTATTCCATCCrAGAGATGTTATGAACCGTGACTGTCG 
a *LSSRT***GRISTXLGTDS 
b DYQAGHNNKVGSLQYLALTA- 
C TIKQDIIIR*DLYNTWH*QH- 

ATTGATAAAACCAAAAAAGATAAAGCCACCTCTGCCTAGTATCAAGAAATTAGTAGAGGA 
4861 + + + + + + 4920 

TAACTATTTTGGTTTTTTCTATTTCGGTGGAGACGGATCATAGTTCTTTAATCATCTCCT 
a IDKTKKDKATSA*YQEISRG 
b LIKPKKIKPPLPSIKKLVED- 
c **MQKR*SHLCLVSRN**RI- 

TAGATGGAACAATCCCCAGGAGATCAGGGGCCGCAGAGGGAACCACACAATGAATGGACA 

4921 + + + + - + + 4980 

ATCTACCTTGTTAGGGGTCCTCTAGTCCCCGGCGTCTCCCTTGGTGTGTTACTTACCTGT 
a *MEQSPGDQGPQREPHNEWT 
b RWNNPQEIRGRRGNHTMNGH- 
C DGTIPRRSGAAEGTTO*MDT- 

CTAGAGCTTCTAGAGGAGCTO^GCAGGAAGCTGTTAGACACTTTCCTAGACCATGGCTT 
4981 + + + + + + 5040 

GATCTCGAAGATCTCCTCGAGTTCGTCCTTCGACAATCTGTGAAAGGATCTGGTACCGAA 
a LELLEELKQEAVRHFPRPWL 
b *SF*RSSSRKLLDTFLDHGF- 
c RASRGAQAGSC*TLS*TMAS- 

CATAGCTTAGGACAACATATCTATGAAACATATGGGGATACTTGGGCAGGAGTGGAAGCC 

5041 --- + + + --- + --- - + + 5100 

GTATCGAATCCTGTTGTATAGATACTTTGTATACCCCTATGAACCCGTCCTCACCTTCGG 
a HSLGQHIYETYGDTWAGVEA 
b IA*DNISMKHMGILGQEWKP- 
c *LRTTYL*NIWGYLGRSGSH- 

ATAATAAGAATTCTGCAACAACTGCTGTTTATTCATTTCAGAATTGGGTGTCAGCATAGC 
5101 -- + + + + + + 5160 

TATTATTCTTAAGACGTTGTTGACGACAAATAAGTAAAGTCTTAACCCACAGTCGTATCG 
a IIRILQQLLFIHFRIGCQHS 
b **EFCNNCCLFISELGVSIA- 
c NKNSATTAVYSFQNWVSA*Q- 

AGAATAGGCATTTTGAGACAGAGAAGAACAAGAAATGGAGCCAGTAAATCATAAATTAGA 
5161 + + + + + + 5220 

TCTTATCCGTAAAACTCrrGTCTCTTCTTGTTCTTTACCTCGGTCATTTAGTAT^ 
a RIGILRQRRTRNGASKS*IR 
b E*AF*DREEQEMEPVNHKLE- 
c NRHFETEKNKKWSQ*IIN*S- 

GCCTTGGGAGCATCCAGGAAGTCAGCCTAAGACTGCTTGTAACAGTTGCTATTGTAAAAA 

5221 + + + + + 5280 

CGGAACCCrCGTAGGTCCTTCAGTCGGATTCTGACGAACATTGTCAACGATAACAlTTrT 
a ALGASRKSA*DCL*QLLL*K 
b PWEHPGSQPKTACMSCYCKK- 
C LGSIQEVSLRLLVTVAIVKS- 
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Fig. 8/j 



GTGCTCCTTTCATTGCCAAGTTTGTTTCACGAAAAAACXSCTTAGGCATCT^ 
5281 + + + + + + 5340 

CACGACGAAAGTAACGGTTCAAACAAAGTGCTTTTTTCCGAATCCGTAGAAGATACCGTC 
a VLLSLPSLFHEKRLRHLLWQ 
b CCFHCQVCFTKKGLGIFYGR- 
c AAFIAKFVSRKKA*ASSMAG- 

GAAGAAGCGAAGACAGOSACGAAGCGCrCATCGAAGCAGTGAGGATCATCAAAATCCTAT 

5341 + + + + "til" * 

CTTCTTCGCTTCTGTCGCTGCTTCGCGAGTAGCTTCGTCACrCCTAGTAGTTT^ 
a EEAKTATKRSSKQ *GSSKSY 

b KKRRQRRSAHRSSEDHQNPI- 
C RSEDSDEALIEAVRIIKILY- 

ATCAAAGCAGTAAGTAGTAAATGTAATGCAAGCTTTAACOVTTTTAGCAATAGTAGCCTT 

5401 + - + + + - + + 5460 

TAGTTTCGTCy^TTCATCATTTACATTACGTTCGAAATTGGTAAAATCGTTATCATCGGAA 
a IKAVSSKCNASFNHFSNSSL 
b SKQ*VVNVMQALTILAIVAL- 
C QSSK**M*CKL*PF*Q**P*- 

AGTAGTAGCAACAATAATAGCAATAGTTGTGTGGACCATAGTATTCATAGAATATAGGAA 

5461 + + * + + + 5520 

TCATCATraTTGTTATTATCGTTATCAACACACCTGGTATCATAAGTATCTTATATCCTT 
a SSSNNNSNSCVDHSIHRI*E 
b VVATIIAIVVWTIVFIEYRK- 
C **QQ**Q*LCGP*YS*NIGK- 

AATATTAAGACAGAAAAAAATAGACAGGTTAATTGATAGAATAAGAGAAAGAGCAGAAGA 

5521 + - + + + + + 5580 

TTATAATTCTGTCTTTTTTTATCTGTCCAATTAACTATCTTATTCTCTTTCTCGTCTTCT 
a NIKTEKNRQVN**NKRKSRR 
b ILRQKKIDRLIDRIRERAED- 
c y*DRKK*TG*LIE*EKEQKT- 

CAGTGGCAATGAGGGTGACGGGGATCAGGAAGAATTATCGGCATTTATGGAGATGGGGCA 
5581 + + + + + + 5640 

GTCACCGTTACTCCCACTGCCCCTAGTCCTTCTTAATAGCCGTAAATACCTCTACCCCGT 
a QWQ*G*RGSGRIlGiyGDGA 
b SGNEGDGDQEELSAFMEMGH- 
C VAMRVTGIRKNYRHLWRWGT- 

CCATGCTCCTTGGGATGTTGATGATCAGTAGTGCTGTAGGAAACTTGTGGGTCACAGTCT 

5641 - + --- + + + + + 5700 

GGTACGAGGAACCCTACAACTACTAGTCATCACGACATCCTTTGAACACCCAGTGTCAGA 
a PCSLGC**SVVL*ETCGS0S 
b HAPWDVDDQ*CCRKLVGHSL- 
C MLLGMLMISSAVGNLWVTVY- 

ATTATGGGGTACCTGTATGGAAAGGGGCAACCACCACTTTATTTTGTGCATCAGATGCTA 

5701 + + + + + + 5760 

TAATACCCCJVTGGACATACCTTTCCCCGTTGGTGGTGAAATAAAACACGTAGTCTACGAT 
a IMGYLYGKGQPPLYFVHQML 
b LWGTCMERGNHHFILCIRC*- 
C YGVPVWKGATTTLFCASDAK- 

AAGCATATGATACAGAGGTACATAATGTTTGGGCTACACATGCCT6TGTACCCGCAGACC 

5761 - + + + + + * 5820 

TTCGTATACTATGTCTCCATGTATTACAAACCCGATGTGTACGGACACATGGGCGTCTGG 
a KHMIQRYIMFGLHMPVYPQT 
b SI*YRGT*CLGYTCLCTRRP- 
C AYDTEVHNVWATHACVPADP- 
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Fig. 8/k 

CC^ACCCACAAGAAATGGTTTTGGAAAATGTAACAGAAAATTTTAACATGTGGAAAAATG 

5821 + + + + ^^^^ 

GGTTGGGTGTTCTTTACCAAAACCTTTTACATTGTCTTTTAAAATTC 
PTHKKWFWKM*QKILTCGKM 
b QPTRNGPGKCNRKF*HVEK*- 
C NPQEMVLENVTENFNMWKNE- 

AAATGGTAAATCAGATGCAGGAAGATGTAATCAGTTTATGGGATCAAAGCCTAAAACCAT 
5881 + + + + + + 5940 

TrrACCATTTAGTCTACGTCCTTCTACATTAGTCAAATACCCTAGTTTCGGATTTT^ 
a KW*IRCRKM*SVYGIKA*NH 
b NGKSDAGRCNQPMGSKPKTM- 
c MVNQMQEDVISLWDQSLKPC- 

GTGTAAAGTTGACCCCACTCTGTGTCACTTTAGAATGTAGAAATGTTAGCAGTAATAGTA 
5941 + + + + + + 6000 

CACATTTCAACTGGGGTGAGAa^CAGTGAAATCTTACATCTTTACAATCGTCATTATCAT 
a v*S*PHSVSL*NVEMLAVIV 
b CKVDPTLCHFRM*KC*Q***- 
C VKLTPLCVTLECRNVSSMSN- 

ATGATACCTACCATGAGACCTACCATGAGAGCATGAAGGAAATGAAAAATTGCrCTTTCA 

6001 + + - + + + + 6060 

TACTATGGATGGTACTCTGGATGGTACTCTOSTACTTCCTTTACrTTTTA^ 
a MIPTMRPTMRA*RK*KIALS 
b ♦YLP*DLP*EHEGNEKLLFQ- 
c DTYHETYHESMKEMKNCSFN- 

ATGCAACCACAGTAGTAAGAGATAGGAAGCAGACAGTGTATGCACTTTTTTATAGACTTG 

6061 --- + + + ^ + + 6120 

TACGTTGGTGTCATCATTCTCTATCCTTCGTCTGTCACATACGTGAAAAAATATCTGAAC 
a MQPQ**EIGSRQCMHFFIDL 
b CNHSSKR*EADSVCTFL*T*- 
c ATTVVRDRKQTVYALFYRLD- 

ATATAGTACCACTTACTAAGAAGAACTATAGTGAGAATTCTAGTGAGTATTATAGATTAA 

6121 + + + + + -+ 6180 

TATATCATGGTGAATGATTCTTCTTGATATCACTCTTAAGATCACTCATAATATCTAATT 
a I*YHLLRRTIVRILVSIID* 
b YSTTY*EEL**EF**VL*rN- 
c IVPLTKKMYSENSSEYYRLI- 

TAAATTGTAATACCTCAGCCATAACACAAGCCTGTCCAAAGGTCACTTTTGATCCAATTC 

6181 + + - + + + + 6240 

ATTTAAC7VTTATGGAGTCGGTATTGTGTTCGGACAGGTTTCCAGTGAAAACTAGGTTAAG 
a ♦IVIPQP*HKPVQRSLLIOF 
b KL*YLSHNTSLSKGHF*SNS- 
C NCNTSAITQACPKVTFDPIP- 

CTATACACTATTGCACTCCAGCTGGTTATGCAATTCTAAAGTGTAATGATAAGATATTCA 

6241 -- + + + + + + 6300 

GATATGTGATAACGTGAGGTCGACaWVTACGTTAAGATTTCACATTACTATTCTATAAGT 
a LYTIALQLVMQF*SVMIRYS 
b YTLLHSSWLCNSKV***DIQ- 
C IHYCTPAGYAILKCNDKIFN- 

ATGGGACAGGACCATGCCATAATGTTAGCACAGTACAATGTACACATGGGATTAAGCCAG 

6301 + + + + + 6360 

TACCCTGTCCTGGTACGGTATTACAATCGTGTCATGTTACATGTGTACCCTAATTCGGTC 
a MGQDHAIMLAQYNVHMGLSQ 
b WDRTMP*C*HSTMYTWD*AS- 
C GTGPCHNVSTVQCTHGIKPV- 
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Fig. 8/1 

ItSGTATCAACrCAACTACTGTTAAATGGTAGCCTAGCAGAAGGAGAAATAATAATTAGAT 

6361 + + + + + + 6420 

ACCATAGTTGAGTTGATGACAATTTACCATCGGATCGTCTTCCTCTTTATTATTAATCTA 
a WYQLNYC*MVA*QKEK**LD 
b GINSTTVKW*PSRRRNNN*I- 
C VSTQLLLNGSLAEGEIIIRS- 

CTGAAAATCI^CAAACAATGTCAAAACAATAATAGTACATCTTAATCAATCTGTAGAAA 

6421 + + + + * + 6480 

GACTTTTAGACTGTTTGTTACAGTTTTGTTATTATCATGTAGAATTAGTTAGACATCTTT 
a LKI*QTMSKQ**YILINI**K 
b *KSDKQCQNNNSTS*SICRN- 
c ENLTNNVKTIIVHLNQSVEI- 

TTGTATGTACAAGACCCGGCAATAATACAAGAAAAAGTATAAGGATAGGACCAGGACAAA 

6481 + + + + 4. + 6540 

AACATACATGTTCTGGGCCGTTATTATGTTCTTTTTCATATTCCTATCCTGGTCC^ 
a LyVQDPAIIQEKV*G*DQDK 
b CMYKTRQ*YKKKyKDRTRTN- 
C VCTRPGNNTRKSIRIGPGQT- 

CATTCTATGCAACAGGAGACy^TAATAGGAGACATAAGACy^GCACATTGTAACATTAGTC 

6541 --- + + + + + + 6600 

GTAAGATACGTTGTCCTCTGTATTATCCTCTGTATTCTGTTCGTGTAACATTGTAATCAC 
a HSMQQET**ET*DKHIVTLV 
b ILCWRRHNRRHKTSTL*H**- 
C FYATGDIIGDIRQAHCNISE- 

AAGATAAATGGAATGAAACTTTACAAAGGGTAAGTAAAAAATTAGCAGAACACTTCCAGA 

6601 + + - + + + + 6660 

TTCTATTTACCTTACTTTGAAATGTTTCCa^TTCATTTTTTAATCGTCTTGTGAAGGTCT 
a KINGMKLYKG*VKN*QNTSR 
b R*ME*NFTKGK*KISRTLPE- 
C DKWNETLQRVSKK LAEHFQN- 

ATAAAACAATAAAATTTGCATCATCCTCAGGAGGGGACCTAGAAGTTACAACACATAGCT 

6661 - + + + + + 6720 

TATTTTGTTATTTTAAACGTAGTAGGAGTCCTCCCCTGGATCTTCAATGTTGTGTATCGA 
a IKQ*NLHHPQEGT*KLQHIA 
b *NNKICIILRRGPRSYNT*L- 
c KTIKFASSSGGDLEVTTHSF- 

TTAATTGTAGAGGAGAATTTTTCTATTGTAATACATCAGGCCTGTTTAATGGTGCATACA 

6721 - + + + + ^ + 6780 

AATTAACATCTCCTCTTAAAAAGATAACATTATGTAGTCCGGACAAATTACCACGTATGT 
a LIVEENFSIVIHQACLMVHT 
b *L*RRIFLL*YIRPV*WCIH- 
c NCRGEFFYCNTSGLFNGAYT- 

CGCCTAATGGTACAAAAAGTAATTCAAGCTCAATCATCACAATCCCATGCAGAATAAAGC 
6731 + + + + + + 6840 

GCGGATTACCyVTGTTTTTCATTAAGTTCGAGTTAGTAGTGTTAGGGTACGTCTTATTTCG 
a RLMVQKVIQAQSSQSHAE*S 
b A*WYKK*FKLNHHNPMQNKA- 
c PNGTKSNSSSIITIPCRIKQ- 

AAATTATAAATATGTGGCAGGAGGTAGQACGAGCAATGTATGCCCCTCCCATAAAAGGAA 

6841 * * ^ + + * 6900 

TTTAATATTTATACACCGTCCTCCATCCrGCTCGTTACATACGGGGAGGGTATTTTCCT 
a KL*ICGRR*DEQCMPLP*KE 
b NYKYVAGGRTSNVCPSHKRK- 
c IIMMWQEVGRAMYAPPIKGN- 

ACATAACATGTAAATCAAATATCACAGGACTACTATTGGTACGTGATGGAGGAACAGAGC 

6901 + - + " + + + * 6960 

TGTATTGTACATTTAGTTTATAGTGTCCTGATGATAACCATGCACTACCTCCTTGTCTCG 
a T^HVNQISQDYYWYVMEEQS 
b HNM*IKYHRTTIGT*WRNRA- 
C ITCKSNITGLLLVRDGGTEP- 
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Fig. 8/m 

CAAATGATACAGAGACATTCAGACCTGGAGGAGGAGATATGAGGAACAATTGGAGAAGTG 
6961 + + + + + + 7020 

GTTTACTATGTCTCTGTAAGTCTGGACCTCCTCCTCrrATACTCCTTGTTAACCrCT^ 
a QMIQRHSDLEEEI*GTIGEV 
b K*YRDIQTWRRRYEEQLEK*- 
C NDTETFRPGGGDMRNNWRSE- 

AATTATATAAATATAAAGTGGTAGAAATTAAGCCATTGGGAGTAGCACCCACTACAACAA 
7021 + + + - + + ->■ 7080 

TTAATATATTTATATTTCACCATCnTTAATTCGGTAACCCTCATCGTGGGTGATGTTGTT 
a NYINIKW*KLSHWE*HPLQQ 
b II*I*SGRN*AIGSSTHYNK- 
c LYKYKVVEIKPLGVAPTTTK- 

AAAGGAGAGTGGTGGAGAGAGAAAAAAGAGCAGTGGGAATAGGAGCTGTGTTCCTTGGGT 

7081 + + + + + + 7140 

TTTCCTCTCACCACCTCTCTCTTTTTTCTCGTCACCCTTATCCTCGACACAAGGAACCCA 
a KGEWWREKKEQWE*ELCSLG 
b KESGGERKKSSGNRSCVPWV- 
C RRVVEREKRAVGIGAVFLGF- 

TCTTAGGAGTAGCAGGAAGCACTATGGGOXrGGCGTCAATAACGCTGACGGTACAGGCCA 

7141 + + + + + --- + 7200 

AGAATCCTCATCGTCCTTCGTGATACCCGCGCCGCAGTTATTGCGACTGCCATGTCCGGT 
a S*E*QEALWARRQ*R*RYRP 
b LRSSRKHYGRGVNNADGTGQ- 
c LGVAGSTMGAASITLTVQAR- 

GACAATTGCTGTCTGGTATAGTGCAACAGCAAAGCAATTTGCTGAGGGCTATAGAAGCGC 

7201 + + + + + + 7260 

CTGTTAACGACAGACCATATCACGTTGTCGTTTCGTTAAACGACTCCCGATATCTTCGCG 
a DNCCLV*CNSKAIC*GL*KR 
b TIAVWYSATAKQFAEGYRSA- 
C QLLSGIVQQQSNLLRAIEAQ- 

AACAGCATCTGTTGCAACTCACGGTCTGGGGCATTAAGCAGCTCCAGACAAGAGTCCTGG 
7261 + + + - + --- + + 7320 

TTGTCGTAGACAACGTTGAGTGCCAGACCCCGTAATTCGTCGAGGTCTGTTCTCAGGACC 
a NSICCNSRSGALSSSRQESW 
b TASVATHGLGH*AAPDKSPG- 
c QHLLQLTVWGIKQLQTRVLA- 

CTATAGAAAGATACCTAAAGGATCAACAGCTCCTAGGGATTTGGGGCTGCTCTGGAAAAC 
7321 + + + - + + + 7380 

GATATCTTTCTATGGATTTCCTAGTTGTCGAGGATCCCTAAACCCCGACGAGACCTTTTG 
a L*KDT*RINSS*GFGAALEN 
b YRKIPKGSTAPRDLGLLWKT- 
C lERYLKDQQLLGIWGCSGKL- 

TCATCTGCACTACTGCTGTACCTTGGAACTCCAGTTGGAGTAACAAATCTCAAAAAGAGA 

7381 + + + + + * 7440 

AGTAGACGTGATGACGACATGGAACCTTGAGGTCAACCrCATTGTTTAGAGTTTTTCTCT 
a SSALLLYLGTPVGVTNIiKKR 
b HLHYCCTLELQLE*QISKRD- 
C ICTTAVPWNSSWSNKSQKEI- 

TTTGGGATAACATGACCTGGATGCAATGGGATAAAGAAATTAGTAATTACACAAACACAG 

7441 + + + + + + 7500 

AAACCCTATTGTACTGGACCTACGTTACCCTATTTCTTTAATCATTAATGTGTTTGTGTC 
a FGIT*PGCNGIKKLVITQTQ 
b LG*HDLDAMG*RK**LHKHS- 
C WDNMTWMQWDKEISNYTNTV- 

TATACAGGTTGCTTGAAGAATCGCAAAACCAGCAGGAAAGGAATGAAAAAGATCTATTAG 

7501 + + + * + 7560 

ATATGTCCAACGAACTTCTTAGCGTTTTGGTCGTCCTTTCCTTACTTTTTCTAGAT^ 
a YTGCLKNRKTSRKGMKKIY* 
b IQVA*RIAKPAGKE*KRSIS- 
C YRLLEESQNQQERNEKDLLA- 
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Fig. 8/11 

CATTGGACAGTTGGAAAAATCTATGGAGTTGGTTTGACATAACAAATTGGCTGT^ 
7561 + + + + + + 7620 

GTAACCTGTCAACCrrTTTAGATACCTCAACCAAACTGTATTGTTTAACCGACACCATAT 
a HWTVGKIYGVGLT*QIGCGI 
b IGQLEKSMELV*HNKLAVVY- 
C LDSWKNLW SWFDITNWLWYI- 

TAAAAATATTCATAATAATAGTAGGAGGCTTGATAGGTTTAAGAATAATTTTTGCTGTGC 

7621 + + + + + + 7680 

ATTTTTATAAGTATTATTATOVTCCTCCGAACrATCCAAATTCTTATTAAAAACGACACG 
a *KYS****EA**V*E*FLLC 
b KNIHNNSRRLDRFKNNFCCA- 
c KIFIIIVGGLIGLRIIFAVL- 

TCTCTATAGTAAATAGAGTTAGGCAGGGATACTCACCTTTGTCGTTTCAGACCCTTACCC 
7681 + + + + + + 7740 

AGAGATATCATTTATCTCAATCCGTCCCTATGAGTGGAAACAGCAAAGTCTGGGAATGGG 
a SL**IELGRDTHLCRFRPLP 
b LYSK*S*AGILTFVVSDPYP- 
c SIVNRVRQGYSPLSFQTLTP- 

CGAACCCAGGGGGACCCGACAGGCTCGGAAGAATCGAAGAAGAAGGTGGAAAGCAAGACA 

7741 + + + + + + 7800 

GCTTGGGTCCCCCTGGGCTGTCCGAGCCTTCTTAGCnTCTTCTTCCACCTTTCGTTCTGT 
a RTQGDPTGSEESKKKVESKT 
b EPRGTRQARKNRRRRWKARQ- 
C NPGGPDRLGRIEEEGGKQDR- 

GGGACAGATCCATTCGATTAGTGAACGGATTCTTAGCGCTTGCCTGGGACGACCTGCGGA 

7801 + + + + + + 7860 

CCCTGTCTAGGTAAGCTAATCACTTGCCTAAGAATCGCGAACGGACCCTGCTGGACGCCT 
a GTDPFD**TDS*RLPGTTC, G 

b GQIHSISERILSACLGRPAE- 
c DRSIRLVNGFLALAWDDLRN- 

ACCTGTGCCTCTTCAGCTACCACCGATTGAGGGACTTCACATTAGTGGCAGCGAGGGTGG 

7861 - - + + + + -- + + 7920 

TGGACACGGAGAAGTCGATGGTGGCTAACTCCCTGAAGTGTAATCACCGTCGCTCCCACC 
a TCASSATTD*GTSH*WQRGW 
b PVPLQLPPIEGLHISGSEGG- 
C LCLFSYHRLRDFTLVAARVV- 

TGGAACTTCTGGGACGCAATAGTCTCAGGGGACTACAGAGAGGGTGGGAAGCCCTTAAAT 
7921 + + + + - + + 7980 

ACCTTGAAGACCCTGCGTTATCAGAGTCCCCTGATGTCTCTCCCACCCTTCGGGAATTTA 
a WNFWDAIVSGDYREGGKPLN 
b GTSGTQ*SQGTTERVGSP*I- 
C ELLGRNSLRGLQRGWEALKY- 

ATCTGGGAAGTCTTGTGCAGTACTGGGGTCAGGAGCTAAAAAAGAGTACTATTAGTCTGG 

7981 + - + + + + 8040 

TAGACCCTTCAGAACACGTCATGACCCCAGTCCTCGATTTTTTCTCATGATAATCAGACC 
a IWEVLCSTGVRS«KRVLLVW 
b SGKSCAVLGSGAKKEYY*SG- 
C LGSLVQYWGQELKKSTISLV- 

TTGATACCATAGCAATAGCAGTAGCTGAAGGAACAGATAGGATTATAGAATTAGTACAAG 

8041 + + + + + + 8100 

AACTATGGTATCGTTATCGTCATCGACTTCCTTGTCTATCCTAATATCTTAATCATGTTC 
a LIP*Q*Q*LKEQIGL*N*YK 
b *YHSNSSS*RNR*DYRISTR- 
c DTIAIAVAEGTDRIIELVQG- 

GACTTTGTAGAGCTATCTACAGCATACCTAGAAGAATAAGACAGGGCITTGAAGCAGCTT 

8101 + + + + + + 8160 

CTGAAACATCrCGATAGATGTOSTATGGATCTTCTTATTCrGTCCCGAAACTTCGTCGAA 

a DFVELSTAYLEE*DRAIiKQl* 

b TL*SYLQHT*KNKTGL*SSF- 

c LCRAIYSIPRRIRQGPEAAL- 
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Fig. 8/0 



TGOUVTAAAATGGGGGGCAAGTGGTCGAAAAGTAGCATAGTTGGATGGCCKXrr^^ 

8161 + + + + * + 3220 

ACGTTATTTTACCCCCCGTTCACCAGCTTTTCATCGTATCAACCTACCGGACGATATTCC 

a CNKMGGKWSKSSIVGWPAIR 

b AIKWGASGRKVA*LDGLL*Q- 

c Q*NGGQVVEK*HSWMACYKG- 



GAGAGAATGAGAAGAACTGAGCCAGCAGCAGATGGGGTGGGAGCAGTATCTCX3AGACCTG 

^ + + + + + 

CTCTCrrACTCTTCrTGACTCGGTCGTCGTCTACCCCACCCTCGTCATAGAGCTCTGGAC 



a ERMRRTEPAADGVGAVSRDL 
b RE*EELSQQQMGWEQYLETW- 
C ENEKN*ASSRWGGSSISRPG- 



GAAAAACATGGAGCAATCACGAGTAGCAATACAGCAGCTACTAATGAGGATTGTGCCTGG 

+ . ^ + + 4, 

CTTTTTGTACCTCGTTAGTGCTCATCGTTATGTCGTCGATGATTACTCCTAACACGGACC 



a EKHGAITSSNTAATNEDCAW 
b KNMEQSRVAIQQIiLMRIVPG- 
C KTWSNHE*QYSSY**GLCLA- 



CTGGAAGCACAAGAGGAGGGGGAGGTGGGTTTTCCAGTCAGACCTCAGGTACCTTTAAGA 

^ ^ + + + + 

GACCTTCGTGTTCTCCTCCCCCTCCACCCAAAAGGTCAGTCTGGAGTCCATGGAAATTCT 



a LEAQEEGEVGFPVRPQVPLR 
b WKHKRRGRWVFQSDLRYL*D- 
C GSTRGGGGGFSSQTSGTFKT- 



CCAATGACTTACAAGGGAGCTGTAGATCTTAGCTTCTTTTTAAAAGAAAAGGGGGGACTG 

-- + - - + * + ■*■ + 

GGTTACTGAATGTTCCCTCGACATCTAGAATCGAAGAAAAATTTTCTTTTCCCCCCTGAC 



a pMTYKGAVDLSFFLKEKGGL 
b Q*LTREL*ILASF*KKRGDW- 
c NDLQGSCRS*LLFKRKGGTG- 



GAAGGGTTAATTTACTCTAAGAAAAGGCAAGAGATCCTTGATTTGTGGGTCTATCACACA 

^ ^ + 4. + + 

CTTCCCAATTAAATGAGATTCTTTTCCGTTCTCTAGGAACTAAACACCCAGATAGTGTGT 



a EGLIYSKKRQEILDLWVYHT 
b KG*FTLRKGKRSLICGSITH- 
C RVNLL*EKARDP*FVGLSHT- 



CAAGGCTACTTCCCTGATTGGCACAACTACACACCAGGACCAGGGGTCAGATTCCCACTG 

, + --- + + + "*■ 

GTTCCGATGAAGGGACTAACCGTGTTGATGTGTGGTCCTGGTCCCCAGTCTAAGGGTGAC 



a QGYFPDWHNYTPGPGVRFPL 
b KATSLIGTTTHQDQGSDSH*- 
C RLLP*LAQLHTRTRGQIPTD- 



ACTTTTGGGTGGTGCTTCAAGCTAGTACCAGTTGACCCAAGGGAAGTAGAAGAGGCCAAC 

. 4. 4 + + + 

TGAAAACCCACCACGAAGTTCGATCATGGTCAACTGGGTTCCCTTCATCTTCTCCGGTTG 



a TFGWCPKLVPVDPREVEEAN 
b LLGGASS*YQLTQGK*KRPT- 
c PWVVLQASTS*PKGSRRGQR- 



GAGGGAGAAGACAACTGCTTGCTACACCCTGTGTGCCAGCATGGAATGGAGGATGATCAC 

^ 4 + + + + 

CTCCCTCTTCTGTTGACGAACGATGTGGGACACACGGTCGTACCTTACCTCCTACTAGTG 



a EGEDNCLLHPVCQHGMEDDH 
b REKTTACYTLCASMEWRMIT- 
C GRRQLLATPCVPAWNGG*SQ- 



AGAGAAGTATTAAAGTGGAAGTTTGACAGTCAACTAGOVCACAGACACAGGGCCCGCGAA 

^ ^ 4 + + > 

TCrrCTTCATAATTTCACCTTCAAACTGTCAGTTGATOTIX3TGTCTC 



a REVLKWKFDSQLAHRHRARE 
b EKY*SGSLTV.N*HTDTGPAN- 
c RSIKVEV*QSTSTQTQGPRT- 
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Fig. 8/p 



CTACATCCCXaAGTTTTACAAAGACnXSCrrGACAa^GAAGGGACr^ 

8761 - + + - + + * ^^20 

GATGTAGGCCTCAAAATGTTTCTGACGACTGTGTCTTCCCTGAAAGGCGCCCCTGAAAGG 
a LHPEFYKDC»HRRDFPRGLS 
b YIRSFTKTADTEGTFRGDFP- 
C TSGVLQRLLTQKGLSAOTFH- 

ACTX3GGGCGTTCTAGGAGGTGTGGTCrrGGCGGGACIXX3GAGTGGTC^ 

8821 + + + + + ' ~" + 

TGACCCCGCAAGATCCTCCACACCAGACCGCCCTGACCCTCACCAGTTGGGAGTTTACGA 

a TGAF*EVWSGGTGSGQPSNA 

b LGRSRRCGLAGLGVVNPQML- 

C WGVLGGVVWRDWEWSTLKCC- 

GCATATAAGCAGCTGCTTTTCGCCTGTACTGGGTCTCrCTAGTCAGACCAGATCTGAGCC 
3931 + + + + + + 8940 

CGTATATTCGTCGACGAAAAGCGGACATGACCCAGAGAGATCAGTCTGGTCTAGACTCGG 
a AYKQLLFACTGSL*SDQI*A 
b HISSCFSPVLGLSSQTRSEP- 
c I*AAAFRLYWVSLVRPDLSL- 

TGGGAGCTCTCTGGCTAACTAGGGAACCCACTGCTTAAGCCTCAATAAAGCTTGCCITOA 

8941 + + + + + + 5000 

ACCCTCGAGAGACCGATTGATCCCTTGGGTGACGAATTCGGAGTTATTTCGAACGGAACT 
a WELSG*LGNPLLKPQ*SLP* 
b GSSLAN*GTHCLSLNKACLE- 
C GALWLTREPTA*ASIKLALR- 

GGGGCTAGAGCGGCCGCCACCGCGGTGGAGCTCCAGCTTTTGTTCCCTTTAGTGAGGGTT 

9001 + + + + ^ + 

CCCCGATCTCGCCGGCGGTGGCGCCACCTCGAGGTCGAAAACAAGGGAAATCACTCCCAA 

a GARAAATAVELQLLFPLVRV 

b GLERPPPRWSSSFCSL**GL- 

c G*SGRHRGGAPAFVPFSEG*- 

AATTGCGCGCTGGCGATC 
9061 + 9078 

TTAACGCGCGACCGCTAG 
a N C A L A I - 

b I A R W R 

C L R A G D 
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S EQUEN2 PROTOKOLL 
<110> Geneart GmbH 

5 

<120> Das Genom des HIV-1 Intersubtyps (C/B') und seine 
Anwendungen 

<130> WAG-001 PCX 

10 

<140> XX 

<141> 2000-11-16 

<150> DE 199 55 089.1 
15 <151> 1999-11-16 

<:160> 3 

<170> Patentin Ver. 2.1 

20 

<210> 1 
<211> 9078 
<212> DNA 

<213> Human immunodeficiency virus 

25 

<400> 1 

aatctctagc agtggcgccc gaacagggac ttgaaagcga aagtaagacc agaggagatc 60 
tctcgacgca ggactcggct tgctgaagtg cactcggcaa gaggcgagag cggcgactgg 120 
tgagtacgcc aattatattt gactagcgga ggctagaagg agagagatgg gtgcgagagc 180 

30 gtcaatatta agagggggaa aattagataa atgggaaaaa attaggttaa ggccaggggg 240 
aaagaaacac tatatgctaa aacacctagt atgggcaagc agggagctgg aaagatttgc 3 00 
acttaaccct ggccttttag agacatcaga aggctgtaaa caaataatga aacagctaca 3 60 
atcagctctt cagacaggaa cagaggaact tagatcatta ttcaacacag tagcaactcc 420 
ctattgtgta cacacagaga tagatgtacg agacaccaga gaagccttag acaagataga 480 

35 ggaagaacaa aacaaaattc agcaaaaaac acagcaggca aaggaggctg acgggaaggt 540 
cagtcaaaat tatcctatag tacagaatct ccaagggcaa atggtacatc agcccatatc 600 
acctagaact ttaaatgcat gggtaaaagt ggtagaagag aaggctttta gcccagaagt 660 
aatacccatg ttttcagcgt tatcagaagg agccacccca caagatttaa acaccatgct 720 
aaacacagtg gggggacatc aagcagctat gcaaatatta aaagatacca tcaatgaaga 780 

40 ggctgcagaa tgggatagat tacatccagt acatgcaggg cctattgcac caggccaaat 840 
gagagaacca aggggaagtg acatagcagg aactactagt aacctacagg aacaaatagc 900 
atggatgacg agtaacccac ctgttccagt aggagacatc tataaaagat ggataattct 960 
gggattaaat aaaatagtaa gaatgtatag ccctaccagc attctggaca taaaacaagg 1020 
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gccaaaggaa ccctttagag actatgtaga 
agctacgcaa ggtgtaaaaa attggatgac 
agattgtaag accattttaa gagcattagg 
agcatgtcag ggagtgggag gacctagcca 
5 ccaaacaaac agtgccatac tgatgcagag 
taaatgtttc aactgtggca aggaagggca 
aaagggctgt tggaaatgtg gaaaagaagg 
ggccaatttt ttagggaaaa tctggccctc 
gaacagacca gagccaacag. ccccaccaga 

10 aactccatct cagaagcagg agccaataga 
atcactcttt ggcaacgacc cctcgtcaca 
ctattagata caggagcagg tgatacagta 
aaaccaaaaa tgataggggg aattggaggt 
cccatagaaa tttgcggaca caaagctata 

15 aacataattg gaagaaatct gttgactcag 
cccattgaaa ctgtaccagt aaaattaaag 
tggccattga cagaagagaa aataaaagca 
gaaggaaaaa ttacaaaaat tgggcctgaa 
aaaaagaagg acagtactaa gtggagaaag 

20 actcaagatt tttgggaagt tcaattagga 
aaatcagtga cagtactgga tgtgggggat 
ttcaggaagt atactgcatt caccatacct 
tatcagtaca atgtacttcc acagggatgg 
atgacaaaaa ccttagagcc ttttagaaaa 

25 atggatgatt tgtatgtagg atctgactta 
gaactgagac aacatttgtt gaggtgggga 
gaacctccat ttctttggat ggggtatgaa 
acacagctgc cagaaaaaga tagctggact 
ttaaactggg caagtcagat ttatcctgga 

30 aggggggcca aagcactaac agacatagta 
gcagaaaaca gggaaattct aaaagaacca 
gacttgatag ctgaaataca gaaacagggg 
gaaccattca aaaatctaaa aacagggaag 
gatgtaaaac aattaacaga ggctgtgcag 

35 ggaaaaactc ctaaatttag attacccatc 
gactattggc aagccacctg gattcctgag 
aaattatggt accagctgga aaaagatccc 
ggagcagcta atagggagac taaaatagga 
aagaaaattg tttctctaac tgaaacaaca 

40 atagctttgc aagattcagg atcagaagta 
gggatcattc aagcacaacc agataagagt 
caattaatga aaaaggaaag agtctacctg 
ggaaatgaac aagtagataa attagtaagt 



ccggttcttt aaaactttaa gagcggaaca 1080 
agacaccttg ttggtccaaa atgcgaaccc 1140 
accaggggct tcaatagaag aaatgatgac 1200 
taaagcaaaa gtgttggccg aggcaatgag 1260 
aagcaatttt aaaggctcta aaagaattgt 1320 
catagccaga aattgcaggg cccctaggaa 13 80 
acaccaaatg aaagattgta ctgagagaca 1440 
ccacaaggga gggccaggga attttcttca 1500 
ggagagcttc aggtttgggg aagagacaac 1560 
caaggaacta tatcctttaa cttccctcaa 1620 
ataaagatag gggggcaatt aaaggaagct 1680 
ttagaagacc tgaatttgcc agggaaatgg 1740 
tttatcaaag taagacagta tgaacagata 1800 
ggtacagtat tagtaggacc tacacctgtc 1860 
cttggttgca ctttaaattt tccaatcagt 1920 
ccaggaatgg atggcccaaa ggttaaacaa 1980 
ttaacagcaa tttgtgatga aatggagaaa 2040 
aatccatata acactccaat atttgccata 2100 
ttagtagatt tcagggaact caataaaaga 2160 
ataccacacc cagcagggtt aaaaaagaaa 2220 
gcatattttt caattccttt atatgaagac 2280 
agtagaaaca atgaaacacc agggattagg 234 0 
aaaggatcac tagcaatatt ccaaagtagc 2400 
caaaatccag gcatagttat ctatcaatac 2460 
gagatagggc agcatagaac aaaaatagag 252 0 
tttaccacac cagacaagaa acattagaaa 2 580 
ctccatcctg acaaatggac agtacagcct 2640 
gtcaatgata tacaaaagtt agtgggaaaa 2700 
attaaagtaa ggcaactttg taaactcctt 2760 
ccactaactg aagaagcaga attagaattg 2820 
gtacatggag tatactatga cccatcaaaa 2880 
caggaacaat ggacatatca aatttaccaa 2940 
tatgcaaaaa tgaggactgc ccacactaat 3000 
aaaatagcca tggaaggcat agtaatatgg 3060 
caaaaagaaa catgggagac atggtggaca 3120 
tgggaatttg ttaatacccc tcccttagta 3180 
atagtaggag tagaaacttt ctatgtagat 3240 
aaagcagggt atgttactga cagaggaagg 3300 
aatcagaaga ctgaattgca agcaatttgt 3 360 
aacatagtaa cagattcaca gtatgcatta 3420 
gaatcagagt tagttaacca aataatagaa 3480 
tcatgggtac cagcacataa aggaattgga 3540 
agtggaatca ggaaagtgct atttctagat 3 600 
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ggaatagata aagctcaaga agagcatgaa aagtatcaca gcaattggag agcaatggct 3 660 

agtgacttta atctgccacc catagtagca aaagaaatag tggctagctg tgatcaatgt 3 720 

cagctaaaag gagaagccat gcatggacaa gtagactgta gtccagggat atggcaatta 3780 

gattgtacac atttagaagg aaaaatcatc ctggtagcag tccatgtagc cagtggctac 3840 

5 atggaagcag aggttatccc agcagaaaca ggacaagaga cagcatactt tatactaaaa 3900 

ttagcaggaa gatggccagt caaagtaata catacagata atggtagtaa tttcaccagt 3960 

actgcagtta aggcagcctg ttggtgggca ggtatccaac aggaatttgg aattccctac 4020 

agtccccaaa gtcagggagt agtagaagcc atgaataaag aattaaagaa aattataggg 4 080 

caggtaagag atcaagctga gcaccttaag acagcagtac taatggcagt attcattcac 4140 

10 aattttaaaa gaaaaggggg gattgggggg tacagtgcag gggaaagaat aatagatata 4200 

atagcaacag acatacaaac taaagaatta caaaaacaga ttacaaaaat tcaaaattct 4260 

cgggtttatt acagagacag cagagacccc agttggaaag gaccagccaa actactctgg 4320 

aaaggtgaag gggcagtaat aatacaagat aatagtgaca taaaggtagt accaaggagg 4380 

aaagcaaaaa tcattaagga ctatggaaaa cagatggcag gtgctgattg tgtggcaggt 444 0 

15 agacaggatg aagattagaa catggaatag tttagtaaaa caccatatgt atgtttcaag 4 500 

gagagctaat ggatggtttt acagacatca ttatgacagc agacatccaa aagtaagttc 4560 

agaagtacac atcccattag gaaaggctaa attagtaata aaaacatatt gggggttgca 4 620 

gacaggagaa agagatcggc atttgggtca tggagtctcc atagaatgga gattgagaag 4680 

atataccaca caaatagaac ctggcctggc agaccagcta attcatttgt attattttga 474 0 

20 ttgttttgca gactctgata taaggaaagc catattagga cacatagtta ttcctaggtg 4 800 

tgactatcaa gcaggacata ataataaggt aggatctcta caatacttgg cactgacagc 4860 

attgataaaa' ccaaaaaaga taaagccacc tctgcctagt atcaagaaat tagtagagga 4 920 

tagatggaac aatccccagg agatcagggg ccgcagaggg aaccacacaa tgaatggaca 4 980 

ctagagcttc tagaggagct caagcaggaa gctgttagac actttcctag accatggctt 504 0 

25 catagcttag gacaacatat ctatgaaaca tatggggata cttgggcagg agtggaagcc 5100 

ataataagaa ttctgcaaca actgctgttt attcatttca gaattgggtg tcagcatagc 5160 

agaataggca ttttgagaca gagaagaaca agaaatggag ccagtaaatc ataaattaga 5220 

gccttgggag catccaggaa gtcagcctaa gactgcttgt aacagttgct attgtaaaaa 5280 

gtgctgcttt cattgccaag tttgtttcac gaaaaaaggc ttaggcatct tctatggcag 5340 

30 gaagaagcga agacagcgac gaagcgctca tcgaagcagt gaggatcatc aaaatcctat 5400 

atcaaagcag taagtagtaa atgtaatgca agctttaacc attttagcaa tagtagcctt 5460 

agtagtagca acaataatag caatagttgt gtggaccata gtattcatag aatataggaa 5520 

aatattaaga cagaaaaaaa tagacaggtt aattgataga ataagagaaa gagcagaaga 5580 

cagtggcaat gagggtgacg gggatcagga agaattatcg gcatttatgg agatggggca 564 0 

35 ccatgctcct tgggatgttg atgatcagta gtgctgtagg aaacttgtgg gtcacagtct 5700 

attatggggt acctgtatgg aaaggggcaa ccaccacttt attttgtgca tcagatgcta 5760 

aagcatatga tacagaggta cataatgttt gggctacaca tgcctgtgta cccgcagacc 5820 

ccaacccaca agaaatggtt ttggaaaatg taacagaaaa ttttaacatg tggaaaaatg 5880 

aaatggtaaa tcagatgcag gaagatgtaa tcagtttatg ggatcaaagc ctaaaaccat 5940 

40 gtgtaaagtt gaccccactc tgtgtcactt tagaatgtag aaatgttagc agtaatagta 6000 

atgataccta ccatgagacc taccatgaga gcatgaagga aatgaaaaat tgctctttca 6060 

atgcaaccac agtagtaaga gataggaagc agacagtgta tgcacttttt tatagacttg 6120 

atatagtacc acttactaag aagaactata gtgagaattc tagtgagtat tatagattaa 6180 
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taaattgtaa tacctcagcc ataacacaag 
ctatacacta ttgcactcca gctggttatg 
atgggacagg accatgccat aatgttagca 
tggtatcaac tcaactactg ttaaatggta 
5 ctgaaaatct gacaaacaat gtcaaaacaa 
ttgtatgtac aagacccggc aataatacaa 
cattctatgc aacaggagac ataataggag 
aagataaatg gaatgaaact ttacaaaggg 
ataaaacaat aaaatttgca tcatcctcag 

10 ttaattgtag aggagaattt ttctattgta 
cgcctaatgg tacaaaaagt aattcaagct 
aaattataaa tatgtggcag gaggtaggac 
acataacatg taaatcaaat atcacaggac 
caaatgatac agagacattc agacctggag 

15 aattatataa atataaagtg gtagaaatta 
aaaggagagt ggtggagaga gaaaaaagag 
tcttaggagt agcaggaagc actatgggcg 
gacaattgct gtctggtata gtgcaacagc 
aacagcatct gttgcaactc acggtctggg 

20 ctatagaaag atacctaaag gatcaacagc 
tcatctgcac tactgctgta ccttggaact 
tttgggataa catgacctgg atgcaatggg 
tatacaggtt gcttgaagaa tcgcaaaacc 
cattggacag ttggaaaaat ctatggagtt 

25 taaaaatatt cataataata gtaggaggct 
tctctatagt aaatagagtt aggcagggat 
cgaacccagg gggacccgac aggctcggaa 
gggacagatc cattcgatta gtgaacggat 
acctgtgcct cttcagctac caccgattga 

30 tggaacttct gggacgcaat agtctcaggg 
atctgggaag tcttgtgcag tactggggtc 
ttgataccat agcaatagca gtagctgaag 
gactttgtag agctatctac agcataccta 
tgcaataaaa tggggggcaa gtggtcgaaa 

35 gagagaatga gaagaactga gccagcagca 
gaaaaacatg gagcaatcac gagtagcaat 
ctggaagcac aagaggaggg ggaggtgggt 
ccaatgactt acaagggagc tgtagatctt 
gaagggttaa tttactctaa gaaaaggcaa 

40 caaggctact tccctgattg gcacaactac 
acttttgggt ggtgcttcaa gctagtacca 
gagggagaag acaactgctt gctacaccct 
agagaagtat taaagtggaa gtttgacagt 



cctgtccaaa ggtcactttt gatccaattc 6240 
caattctaaa gtgtaatgat aagatattca 6300 
cagtacaatg tacacatggg attaagccag 6360 
gcctagcaga aggagaaata ataattagat 6420 
taatagtaca tcttaatcaa tctgtagaaa 6480 
gaaaaagtat aaggatagga ccaggacaaa 6540 
acataagaca agcacattgt aacattagtg 6600 
taagtaaaaa attagcagaa cacttccaga 6660 
gaggggacct agaagttaca acacatagct 6720 
atacatcagg cctgtttaat ggtgcataca 6780 
caatcatcac aatcccatgc agaataaagc 684 0 
gagcaatgta tgcccctccc ataaaaggaa 6900 
tactattggt acgtgatgga ggaacagagc 6960 
gaggagatat gaggaacaat tggagaagtg 7 020 
agccattggg agtagcaccc actacaacaa 7080 
cagtgggaat aggagctgtg ttccttgggt 7140 
cggcgtcaat aacgctgacg gtacaggcca 7200 
aaagcaattt gctgagggct atagaagcgc 7260 
gcattaagca gctccagaca agagtcctgg 732 0 
tcctagggat ttggggctgc tctggaaaac 7380 
ccagttggag taacaaatct caaaaagaga 7440 
ataaagaaat tagtaattac acaaacacag 7500 
agcaggaaag gaatgaaaaa gatctattag 7560 
ggtttgacat aacaaattgg ctgtggtata 7620 
tgataggttt aagaataatt tttgctgtgc 7680 
actcaccttt gtcgtttcag acccttaccc 7740 
gaatcgaaga agaaggtgga aagcaagaca 7800 
tcttagcgct tgcctgggac gacctgcgga 7860 
gggacttcac attagtggca gcgagggtgg 7920 
gactacagag agggtgggaa gcccttaaat 7980 
aggagctaaa aaagagtact attagtctgg 804 0 
gaacagatag gattatagaa ttagtacaag 8100 
gaagaataag acagggcttt gaagcagctt 8160 
agtagcatag ttggatggcc tgctataagg 8220 
gatggggtgg gagcagtatc tcgagacctg 8280 
acagcagcta ctaatgagga ttgtgcctgg 834 0 
tttccagtca gacctcaggt acctttaaga 8400 
agcttctttt taaaagaaaa ggggggactg 8460 
gagatccttg atttgtgggt ctatcacaca 8520 
acaccaggac caggggtcag attcccactg 8580 
gttgacccaa gggaagtaga agaggccaac 864 0 
gtgtgccagc atggaatgga ggatgatcac 8700 
caactagcac acagacacag ggcccgcgaa 8760 
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ctacatccgg agttttacaa agactgctga cacagaaggg actttccgcg gggactttcc 8820 

actggggcgt tctaggaggt gtggtctggc gggactggga gtggtcaacc ctcaaatgct 8880 

gcatataagc agctgctttt cgcctgtact gggtctctct agtcagacca gatctgagcc 8940 

tgggagctct ctggctaact agggaaccca ccgcttaagc ctcaataaag cttgccttga 9000 

ggggctagag cggccgccac cgcggtggag ctccagcttt tgttcccttt agtgagggtt 9060 

aattgcgcgc tggcgatc 9078 



<210> 2 
10 <211> 4288 
<212> DNA 

<213> Human immunodeficiency virus 
<400> 2 

15 gctaggtacc taatgggcgc cagggccagc atcctgaggg gcggcaagct ggacaagtgg 60 
gagaagatca ggctgaggcc cggcggcaag aagcactaca tgctgaagca cctggtgtgg 120 
gccagcaggg agctggagag gttcgccctg aaccccggcc tgctggagac cagcgagggc 180 
tgcaagcaga tcatgaagca gctgcagagc gccctgcaga ccggcaccga ggagctgagg 24 0 
agcctgttca acaccgtggc caccccctac tgcgtgcaca ccgagatcga cgtgagggac 3 00 

20 accagggagg ccctggacaa gatcgaggag gagcagaaca agatccagca gaagacccag 360 
caggccaagg aggccgacgg caaggtgagc cagaactacc ccatcgtgca gaacctgcag 420 
ggccagatgg tgcaccagcc catcagcccc aggaccctga atgcatgggt gaaggtggtg 480 
gaggagaagg ccttcagccc cgaggtgatc cccatgttca gcgccctgag cgagggcgcc 54 0 
accccccagg acctgaacac catgctgaac accgtgggcg gccaccaggc cgccatgcag 600 

25 atcctgaagg acaccatcaa cgaggaggcc gccgagtggg acaggctgca ccccgtgcac 660 
gccggcccca tcgcccccgg ccagatgagg gagcccaggg gcagcgacat cgccggcacc 720 
accagcaacc tgcaggagca gatcgcctgg atgaccagca acccccccgt gcccgtgggc 780 
gacatctaca agaggtggat catcctgggt ttaaacaaga tcgtgaggat gtacagcccc 84 0 
accagcatcc tggacatcaa gcagggcccc aaggagccct tcagggacta cgtcgacagg 900 

30 ttcttcaaga ccctgagggc ggagcaggcc acccagggcg tgaagaactg gatgaccgac 960 
accctgctgg tgcagaacgc caaccccgac tgcaagacca tcctgagggc cctgggcccc 1020 
ggcgccagca tcgaggagat gatgaccgcc tgccagggcg tgggcggccc cagccacaag 1080 
gccaaggtgc tggccgaggc caCgagccag accaacagcg ccatcctgat gcagaggagc 1140 
aacttcaagg gcagcaagag gatcgtgaag tgcttcaact gcggcaagga gggccacatc 1200 

35 gccaggaact gcagggcccc caggaagaag ggctgctgga agtgcggcaa ggagggccac 1260 
cagatgaagg actgcaccga gaggcaggcc aacttcctgg gcaagatctg gcccagccac 1320 
aagggcggcc ccggcaactt cctgcagaac aggcccgagc ccaccgcccc ccccgaggag 13 80 
agcttcaggt tcgaggagga gaccaccacc cccagccaga agcaggagcc catcgacaag 1440 
gagctgtacc ccctgaccag cctgaagagc ctgttcggca acgaccccag cagccaggaa 1500 

40 ttcttcaggg agaacctggc cctgccccag ggcagggcca gggagttcag cagcgagcag 1560 
accagggcca acagccccac caggggcgag ctgcaggtgt ggggcaggga caacaacagc 1620 
atcagcgagg ccggcgccaa caggcagggc accatcagct tcaacttccc ccagatcacc 1680 
ctgtggcaga ggcccctggt gaccatcaag atcggcggcc agctgaagga ggccctgctg 1740 
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aacaccggcg ccggcgacac cgtgctggag 
aagatgatcg gcggcatcgg cggcttcatc 
gagatctgcg gccacaaggc catcggcacc 
atcggcagga acctgctgac ccagctgggc 
5 gagaccgtgc ccgtgaagct gaagcccggc 
ctgaccgagg agaagatcaa ggccctgacc 
aagatcacca agatcggccc cgagaacccc 
aaggacagca ccaagtggag gaagctggtg 
gacttctggg aggtgcagct gggcatcccc 
10 gtgaccgtgc tggacgtggg cgacgcctac 
aagtacaccg ccttcaccat ccccagcagg 
tacaacgtgc tgccccaggg ctggaagggc 
atcgaggagc tgatctacag caagaagagg 
acccagggct acttccccga ctggcacaac 
15 ctgaccttcg gctggtgctt caagctggtg 
aacgagggcg aggacaactg cctgctgcac 
cacagggagg tgctgaagtg gaagttcgac 
gagctgcacc ccgagttcta caaggactgc 
gtgggctggc ccgccatcag ggagaggatg 

20 ggcgccgtga gcagggacct ggagaagcac 
accaacgagg actgcgcctg gctggaggcc 
aggccccagg tgcccctgag gcccatgacc 
ctgaaggaga agggcggcct ggagggcctg 
acccccgaca agaagcacca gaaggagccc 

25 cccgacaagt ggaccgtgca gcccacccag 
gacacccaga agctggtggg caagctgaac 
gtgaggcagc tgtgcaagct gctgaggggc 
accgaggagg ccgagctgga gctggccgag 
ggcgtgtact acgaccccag caaggacctg 

30 cagtggacct accagatcta ccaggagccc 
aagatgagga ccgcccacac caacgacgtg 
gccatggagg gcatcgtgat ctggggcaag 
gagacctggg agacctggtg gaccgactac 
ttcgtgaaca cccctcccct ggtgaagctg 

35 ggcgtggaga ccttctacgt ggacggcgcc 
ggctacgtga ccgacagggg caggaagaag 
aagaccgagc tgcaggccat ctgcatcgcc 
gtgaccgaca gccagtacgc cctgggcatc 
gagctggtga accagatcat cgagcagctg 

40 gtgcccgccc acaagggcat cggcggcaac 
atcaggaagg tgctgaagac cctggagccc 
taccagtaca tggacgacct gtacgtgggc 
aagtaaagat ctctcgagga gctcaagc 
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gacctgaacc tgcccggcaa gtggaagccc 1800 
aaggtgaggc agtacgagca gatccccatc 1860 
gtgctggtgg gccccacccc cgtgaacatc 1920 
tgcaccctga acttccccat cagccccatc 1980 
atggacggcc ccaaggtgaa gcagtggccc 204 0 
gccatctgcg acgagatgga gaaggagggc 2100 
tacaacaccc ccatcttcgc catcaagaag 2160 
gacttcaggg agctgaacaa gaggacccag 2220 
caccccgccg gcctgaagaa gaagaagagc 2280 
ttcagcatcc ccctgtacga ggacttcagg 2340 
aacaacgaga cccccggcac cagctaccag 2400 
agcctggcca tcttccagag cagcatgacc 2460 
caggagatcc tggacctgtg ggtgtaccac 2520 
tacacccccg gccccggcgt gaggttcccc 2580 
cccgtggacc ccagggaggt ggaggaggcc 264 0 
cccgtgtgcc agcacggcat ggaggacgac 2700 
agccagctgg cccacaggca cagggccagg 2760 
atgggcggca agtggagcaa gagcagcatc 2820 
aggaggaccg agcccgccgc cgacggcgtg 2880 
ggcgccatca ccagcagcaa caccgccgcc 2940 
caggaggagg gcgaggtggg cttccccgtg 3000 
tacaagggcg ccgtggacct gagcttcttc 3060 
aggcagcacc tgctgaggtg gggcttcacc 312 0 
cccttcctgt ggatgggcta cgagctgcac 3180 
ctgcccgaga aggacagctg gaccgtgaac 324 0 
tgggccagcc agatctaccc cggcatcaag 33 00 
gccaaggccc tgaccgacat cgtgcccctg 3360 
aacagggaga tcctgaagga gcccgtgcac 3420 
atcgccgaga tccagaagca gggccaggag 34 80 
ttcaagaacc tgaagaccgg caagtacgcc 354 0 
aagcagctga ccgaggccgt gcagaagatc 3600 
acccccaagt tcaggctgcc catccagaag 3660 
tggcaggcca cctggatccc cgagtgggag 372 0 
tggtatcagc tggagaagga ccccatcgtg 3780 
gccaacaggg agaccaagat cggcaaggcc 3 840 
atcgtgagcc tgaccgagac caccaaccag 3 900 
ctgcaggaca gcggcagcga ggtgaacatc 3960 
atccaggccc agcccgacaa gagcgagagc 4020 
atgaagaagg agagggtgta cctgagctgg 4080 
gagcaggtgg acaagctggt gagcagcggc 4140 
ttcaggaagc agaaccccgg catcgtgatc 4200 
agcgacctgg agatcggcca gcacaggacc 4260 

4288 
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<210> 3 
<21X> 2605 
5 <212> DNA 

<213> Human immunodeficiency virus 

<400> 3 

gcggcgggta ccgaattcgc cgccagcatg gacagggcca agctgctgct gctgctgctg 60 
10 ctgctgctgc tgccccaggc ccaggccgtg ggcaacctgt gggtgaccgt gtactacggc 120 
gtgcccgtgt ggaagggcgc caccaccacc ctgttctgcg ccagcgacgc caaggcctac 180 
gacaccgagg tgcacaacgt gtgggccacc cacgcctgcg tgcccgccga ccccaacccc 240 
caggagatgg tgctggagaa cgtgaccgag aacttcaaca tgtggaagaa cgagatggtg 300 
aaccagatgc aggaggacgt catcagcctg tgggaccaga gcctgaagcc ctgcgtgaag 360 
15 ctgacccccc tgtgcgtgac cctggagtgc aggaacgtga gcagcaacag caacgacacc 420 
taccacgaga cctaccacga gagcatgaag gagatgaaga actgcagctt caacgccacc 4 80 
accgtggtga gggacaggaa gcagaccgtg tacgccctgt tctacaggct ggacatcgtg 540 
cccctgacca agaagaacta cagcgagaac agcagcgagt actacaggct gatcaactgc 600 
aacaccagcg ccatcaccca ggcctgcccc aaggtgacct tcgaccccat ccccatccac 660 
20 tactgcaccc ccgccggcta cgccatcctg aagtgcaacg acaagatctt caacggcacc 720 
ggcccctgcc acaacgtgag caccgtgcag tgcacccacg gcatcaagcc cgtggtgagc 780 
acccagctgc tgctgaacgg cagcctggcc gagggcgaga tcatcatcag gagcgagaac 84 0 
ctgaccaaca acgtgaaaac catcatcgtg cacctgaacc agagcgtgga gatcgtgtgc 900 
accaggcccg gcaacaacac caggaagagc atcaggatcg gccccggcca gaccttctac 960 
25 gccaccggcg acatcatcgg cgacatcagg caggcccact gcaacatcag cgaggacaag 1020 
tggaacgaga ccctgcagag ggtgagcaag aagcttgccg agcacttcca gaacaagacc 1080 
atcaagttcg ccagcagcag cggcggcgac ctggaggtga ccacccacag cttcaactgc 114 0 
sggggcgagt tcttctactg caacaccagc ggcctgttca acggcgccta cacccccaac 1200 
ggcaccaaga gcaacagcag cagcatcatc accatcccct gcaggatcaa gcagatcatc 1260 
30 aacatgtggc aggaggtggg cagggccatg tacgcccctc ccatcaaggg caacatcacc 1320 
tgcaagagca acatcaccgg cctgctgctg gtgagggacg gcggcaccga gcccaacgac 1380 
accgagacct tcaggcccgg cggcggcgac atgaggaaca actggaggag cgagctgtac 1440 
aagtacaagg tggtggagat caagcccctg ggcgtggccc ccaccaccac caagaggagg 1500 
gtggtggaga gggagaagag ggccgtgggc atcggcgccg tgttcctggg cttcctgggc 1560 
35 gtggccggca gcaccatggg cgccgccagc atcaccctga ccgtgcaggc caggcagctg 1620 
ctgagcggca tcgtgcagca gcagagcaac ctgctgaggg ccatcgaggc ccagcagcac 1680 
ctgctgcagc tgaccgtgtg gggcatcaag cagctgcaga ccagggtgct ggccatcgag 1740 
aggtacctga aggaccagca gctgctgggc atctggggct gcagcggcaa gctgatctgc 1800 
accaccgccg tgccctggaa cagcagctgg agcaacaaga gccagaagga gatctgggac 1860 
40 ^aacatgacct ggatgcagtg ggacaaggag atcagcaact acaccaacac cgtgtacagg 1920 
ctgctggagg agagccagaa ccagcaggag aggaacgaga aggacctgct ggccctggac 1980 
agctggaaga acctgtggag ctggttcgac atcaccaact ggctgtggta catcaagatc 2040 
ttcatcatca tcgtgggcgg cctgatcggc ctgaggatca tcttcgccgt gctgagcatc 2100 
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gtgaacaggg tgaggcaggg ctacagcccc 
ggcggccccg acaggctggg caggatcgag 
agcatcaggc tggtgaacgg cttcctggcc 
ctgttcagct accacaggct gagggacttc 
ctgggcagga acagcctgag gggcctgcag 
agcctggtgc agtactgggg ccaggagctg 
atcgccatcg ccgtggccga gggcaccgac 
agggccatct acagcatccc caggaggatc 
taaagatctc tcgaggagct caagc 



ctgagcttcc agaccctgac ccccaacccc 2160 

gaggagggcg gcaagcagga cagggacagg 2220 

ctggcctggg acgacctgag gaacctgtgc 2 280 

accctggtgg ccgccagggt ggtggagctg 234 0 

aggggctggg aggccctgaa gtacctgggc 2400 

aagaagagca ccatcagcct ggtggacacc 2460 

aggatcatcg agctggtgca gggcctgtgc 2520 

aggcagggct tcgaggccgc cctgcagtga 2580 

2605 



